Nguyên tắc tối thiểu hóa rủi ro thực nghiệm (1) – Rủi ro thực nghiệm và rủi ro kì vọng
Đăng bởi tqlong on Tháng Sáu 25, 2009
Nguyên tắc tối thiểu hóa rủi ro thực nghiệm được giới thiệu trong bài trước. Trong bài này ta sẽ xem xét kĩ hơn tính khả thi của nguyên tắc này. Nhắc lại, ta có giá trị rủi ro kì vọng (expected risk) của hàm phân lớp là
còn giá trị rủi ro thực nghiệm (empirical risk) trên tập mẫu học là
trong đó là hàm lỗi khi phân đối tượng thuộc lớp
vào lớp
. Có nhiều dạng hàm lỗi, ví dụ:
Với (bài toán phân 2 lớp – classification)
- Hàm lỗi 0-1 (0-1 loss):
.
- Hàm lỗi bản lề (hinge loss):
.
- Hàm lỗi mũ (exponiental loss):
.
- Hàm lỗi logitic (logistic loss):
.
Với (bài toán xấp xỉ – regression)
- Hàm lỗi
sai số bình phương:
.
- Hàm lỗi
sai số tuyệt đối:
.
Một thuật toán học máy tuân theo nguyên tắc tối thiểu hóa rủi ro thực nghiệm từ đầu vào là tập mẫu học (giả sử độc lập có cùng phân bố – i.i.d), sau khi tính toán cho ra một hàm phần lớp
nằm trong lớp hàm
cho trước sao cho giá trị rủi ro thực nghiệm được tối thiểu hóa. Xét các giá trị sau:
Như vậy, là kết quả của thuật toán học máy, hàm này tối thiểu hóa giá trị rủi ro thực nghiệm
. Còn
là hàm phân lớp tốt nhất có thể trong lớp hàm
, hàm này tối thiểu hóa giá trị rủi ro kì vọng
.
Ta cần xác định
- Chênh lệch giữa rủi ro thực nghiệm và rủi ro kì vọng của
:
Đánh giá đại lượng này được tiến hành qua các bất đẳng thức tập trung phân bố quanh kì vọng.
- Chênh lệch giữa rủi ro kì vọng của
và rủi ro kì vọng tốt nhất có thể được:
Định lý sau cho ta biết mối quan hệ giữa hai đại lượng này:
Định lý: Nếu với mọi hàm phân lớp ta có
hay
thì .
Chứng minh:
do
do
do
Định lý cho phép ta ước lượng nếu ta ước lượng được
.
Ví dụ: Trường hợp hữu hạn,
, ta có:
Giả sử hàm là hàm lỗi 0-1, áp dụng bất đẳng thức Hoeffding ta được
Vậy tiếp tục ta có
Đặt hay
, ta suy ra
Từ định lý trên ta kết luận
trong đó gọi là đảm bảo xác suất (confidence). Ta còn nói, gần như chắc chắn
khi
(asymptotically almost surely).
Như vậy, nếu số mẫu học càng lớn thì giá trị rủi ro kì vọng của càng gần giá trị rủi ro thấp nhất có thể được (theo nghĩa xác suất). Nghĩa là trong trường hợp này, tối thiểu hóa rủi ro thực nghiệm hay ERM đem lại hàm phân lớp tốt (gần tối ưu) với xác suất cao. Công thức trên còn cho thấy, để tăng đảm bảo xác suất từ
hay
lên
hay
, ta chỉ cần tăng số mẫu học
lên 2 lần.



