Bài trước cho thấy mối quan hệ giữa và
liên quan đến kỳ vọng Rademacher
của lớp hàm
.
Định lý: Nếu và hàm lỗi
là hàm lỗi 0-1,
,
ta có .
Chứng minh: Theo định nghĩa
(do
)
(do
có cùng phân bố với
)
Nhận xét: Định lý cho phép liên hệ giữa kì vọng Rademacher của lớp hàm và kì vọng Rademacher của
.
Nếu đặt là tập tất cả các khả năng phân lớp của lớp hàm
trên tập mẫu học
(Ta đã biết đây chính là khái niệm phá vỡ (shatter) đã giới thiệu trong bài này). Ta có
tức là đại lượng này không phụ thuộc vào số lượng hàm trong mà phụ thuộc vào việc lớp hàm này có thể phá vỡ (shatter) tập mẫu học
đến mức nào.
Để ước lượng ta có bổ đề sau:
Bổ đề lớp hữu hạn Massart (Massart’s finite class lemma): Cho là một tập hữu hạn,
là các biến ngẫu nhiên Rademacher, ta có
.
trong đó .
Chứng minh: Xét đại lượng . Với mọi
, ta có
(bất đẳng thức Jensen, do hàm
là hàm lồi)
(do
là hàm đồng biến)
(do
)
(do
)
(do
độc lập)
(do
là biến Rademacher)
(do
, tra Wikipedia để biết khai triển Taylor của hàm
rồi so sánh với khai triển Taylor của
)
Lấy loga cả hai vế ta được . Chọn
để tối thiểu hóa vế phải ta được
và
(đpcm).
Bổ đề Massart giúp ta ước lượng qua định lý sau
Định lý: Với lớp hàm phân lớp mà
và
là hàm tăng trưởng (growth function) của
ta có
.
Chứng minh: Ta có
(do
và định nghĩa của hàm tăng trưởng (growth function))
Hệ quả: Nếu chiều VC của lớp hàm hữu hạn thì
khi
.
Chứng minh: Thật vậy, nếu chiều VC của lớp hàm hữu hạn và bằng
thì ta đã biết
hay
.
Nhận xét: Kết quả này chứng tỏ
- Nguyên tắc tối thiểu hóa rủi ro thực nghiệm khả thi vì
với xác suất cao khi số mẫu học
do ta đã biết ở bài trước
nghĩa là rủi ro kì vọng của
xấp xỉ rủi ro kì vọng thấp nhất có thể được với xác suất cao.
- Ước lượng
bị giới hạn bởi hàm tăng trưởng
. Hàm tăng trưởng lại bị giới hạn bởi chiều VC. Vì vậy, chiều VC là một thuộc tính quan trọng cần xét đến khi học trên lớp hàm
. Ước lượng cận trên của chiều VC của một lớp hàm hoặc chỉ ra nó vô hạn sẽ giúp ta xác định có nên áp dụng nguyên tắc tối thiểu hóa rủi ro thực nghiệm hoặc phải cẩn trọng khi áp dụng nguyên tắc này hay không.
- Tại sao phải cẩn trọng khi áp dụng nguyên tắc tối thiểu hóa rủi ro thực nghiệm (ERM) khi chiều VC vô hạn hoặc rất lớn ? Bởi vì khi một lớp hàm
có chiều VC vô hạn (hoặc rất lớn) có nghĩa là với mọi tập mẫu học (và mọi cách phân chia nó), luôn có một hàm phân lớp
thuộc
thỏa mãn cách phân chia này. Nếu ta áp dụng ERM, ta sẽ tìm ra hàm
chứ không phải hàm
mà ta muốn (mặc dù rủi ro thực nghiệm (số lỗi) trên tập mẫu học bằng 0). Đây chính là hiện tượng học quá (overfitting) khi sử dụng các lớp hàm có khả năng biểu diễn mạnh (ví dụ: mạng nơron – neural network).



