Nguyên tắc tối thiểu hóa rủi ro thực nghiệm (2) – Tập mẫu học giản lược
Đăng bởi tqlong on Tháng Sáu 27, 2009
Trong một số trường hợp, thuật toán học máy không cần xem xét toàn bộ tập mẫu học mà vẫn cho ra kết quả hàm phân lớp giống như khi thuật toán chạy trên toàn bộ tập mẫu học. Ví dụ, trong trường hợp perceptron, các mẫu học được sử dụng là các mẫu học bị phân lớp sai trong quá trình học. Trong trường hợp máy học sử dụng véc tơ hỗ trợ (SVM), các mẫu học cần thiết là các véctơ hỗ trợ. Trong bài này, ta sẽ đánh giá độ chính xác của các thuật toán học như vậy.
Để cho tiện, xét tập mẫu học gồm
mẫu học. Đặt
là tập tất cả các chỉ số. Nếu
là một tập chỉ số nào đó,
, thì
là các mẫu học
. Kí hiệu
là tập các chỉ số không nằm trong
.
Một thuật toán học là một hàm từ tập mẫu học của nó đến một hàm phân lớp thuộc lớp hàm
, hay
.
Định nghĩa (tập mẫu học giản lược): Xét , ta nói
là tập mẫu học giản lược (compression set) của
nếu
Gọi
là rủi ro kì vọng của thuật toán
sau khi học trên tập mẫu học
.
là rủi ro kì vọng của thuật toán
sau khi học trên tập mẫu học
(nếu
giản lược thì
).
là rủi ro thực nghiệm của hàm
trên tập mẫu học
.
Ta thấy trong trường hợp Perceptron và SVM, nếu là tập mẫu học giản lược thì
(số lỗi trên tập các mẫu học còn lại bằng 0). Trường hợp Perceptron,
là tập các mẫu học được phân lớp đúng. Trường hợp SVM,
là tập các mẫu học không phải là véctơ hỗ trợ. Ta có định lý sau ước lượng xác suất lỗi cho các trường hợp này.
Định lý (ước lượng xác suất cho tập mẫu học giản lược – compression bound): Xét trường hợp hàm lỗi bị chặn trong khoảng và thuật toán học máy
trên tập mẫu học
. Với mọi tập mẫu học giản lược
mà
ta có
Định lý cho thấy nếu tập mẫu học có tập giản lược nhỏ thì rủi ro kì vọng càng nhỏ (theo nghĩa xác suất).
Chứng minh: Ta cần đánh giá xác suất để tồn tại một tập mẫu học là tập giản lược, đồng thời
nhưng rủi ro kì vọng
. Tức là
Quá trình ước lượng như sau: đầu tiên ta ước lượng xác suất với một tập giản lược cụ thể có kích cỡ
. Sau đó dùng ước lượng xác suất tổng để ước lượng xác suất của một tập giản lược bất kì có kích cỡ
. Sau đó tiếp tục dùng ước lượng xác suất tổng để ước lượng xác suất của một tập giản lược bất kì (có kích cỡ bất kì từ
đến
).
Bắt đầu, xét một tập có kích thước
. Ta có
vì nghĩa là
(có
phần tử) và bổ đề sau.
Bổ đề: Biến ngẫu nhiên có
thì
hay
.
Chứng minh bổ đề: .
Áp dụng bổ đề, ta có , suy ra
và có tất cả
mẫu học như vậy.
Tiếp tục, dùng ước lượng xác suất tổng, ta có
do
(khai triển Taylor của
).
Nếu chọn thì
.
Tiếp tục áp dụng ước lượng xác suất tổng
.
Ta có điều phải chứng minh.



