Trong một số trường hợp, thuật toán học máy không cần xem xét toàn bộ tập mẫu học mà vẫn cho ra kết quả hàm phân lớp giống như khi thuật toán chạy trên toàn bộ tập mẫu học. Ví dụ, trong trường hợp perceptron, các mẫu học được sử dụng là các mẫu học bị phân lớp sai trong quá trình học. Trong trường hợp máy học sử dụng véc tơ hỗ trợ (SVM), các mẫu học cần thiết là các véctơ hỗ trợ. Trong bài này, ta sẽ đánh giá độ chính xác của các thuật toán học như vậy.
Để cho tiện, xét tập mẫu học gồm mẫu học. Đặt là tập tất cả các chỉ số. Nếu là một tập chỉ số nào đó, , thì là các mẫu học . Kí hiệu là tập các chỉ số không nằm trong .
Một thuật toán học là một hàm từ tập mẫu học của nó đến một hàm phân lớp thuộc lớp hàm , hay .
Định nghĩa (tập mẫu học giản lược): Xét , ta nói là tập mẫu học giản lược (compression set) của nếu
Gọi
- là rủi ro kì vọng của thuật toán sau khi học trên tập mẫu học .
- là rủi ro kì vọng của thuật toán sau khi học trên tập mẫu học (nếu giản lược thì ).
- là rủi ro thực nghiệm của hàm trên tập mẫu học .
Ta thấy trong trường hợp Perceptron và SVM, nếu là tập mẫu học giản lược thì (số lỗi trên tập các mẫu học còn lại bằng 0). Trường hợp Perceptron, là tập các mẫu học được phân lớp đúng. Trường hợp SVM, là tập các mẫu học không phải là véctơ hỗ trợ. Ta có định lý sau ước lượng xác suất lỗi cho các trường hợp này.
Định lý (ước lượng xác suất cho tập mẫu học giản lược – compression bound): Xét trường hợp hàm lỗi bị chặn trong khoảng và thuật toán học máy trên tập mẫu học . Với mọi tập mẫu học giản lược mà ta có
Định lý cho thấy nếu tập mẫu học có tập giản lược nhỏ thì rủi ro kì vọng càng nhỏ (theo nghĩa xác suất).
Chứng minh: Ta cần đánh giá xác suất để tồn tại một tập mẫu học là tập giản lược, đồng thời nhưng rủi ro kì vọng . Tức là
Quá trình ước lượng như sau: đầu tiên ta ước lượng xác suất với một tập giản lược cụ thể có kích cỡ . Sau đó dùng ước lượng xác suất tổng để ước lượng xác suất của một tập giản lược bất kì có kích cỡ . Sau đó tiếp tục dùng ước lượng xác suất tổng để ước lượng xác suất của một tập giản lược bất kì (có kích cỡ bất kì từ đến ).
Bắt đầu, xét một tập có kích thước . Ta có
vì nghĩa là (có phần tử) và bổ đề sau.
Bổ đề: Biến ngẫu nhiên có thì hay .
Chứng minh bổ đề: .
Áp dụng bổ đề, ta có , suy ra và có tất cả mẫu học như vậy.
Tiếp tục, dùng ước lượng xác suất tổng, ta có
do (khai triển Taylor của ).
Nếu chọn thì .
Tiếp tục áp dụng ước lượng xác suất tổng
.
Ta có điều phải chứng minh.