Qua phân tích về quyết định tối ưu, ta thấy bài toán phân lớp có thể giải quyết bằng cách xác định/ước lượng xác suất có điều kiện của từng lớp đối tượng . Các vấn đề phải giải quyết của cách tiếp cận này là:
- Xây dựng thuật toán để ước lượng mật độ xác suất
: làm thế nào để tận dụng được dữ liệu (các mẫu học) hoặc các kiến thức chuyên ngành (field knowledge) để ước lượng xác suất này. Đồng thời phải đánh giá được thời gian/bộ nhớ/số lượng mẫu học cần thiết để đảm bảo sai số của ước lượng không vượt quá một ngưỡng
cho trước nào đó.
- Khi chấp nhận ước lượng mật độ xác suất có điều kiện không chính xác tuyệt đối, phải đánh giá được tác động từ sai số lên xác suất lỗi của các quyết định dựa trên ước lượng mật độ này. Cụ thể là phải đánh giá được xác suất lỗi
của thuật toán so với xác suất lỗi tối ưu
khi sử dụng luật phân lớp tối ưu Bayes.
Khi ước lượng được , ta nói máy tính đã “học” được khái niệm (concept) về lớp
. Đồng thời, do bài toán phân lớp có thể quy về bài toán ước lượng xác suất, gần như mỗi thuật toán ước lượng xác suất đều dẫn đến một thuật toán phân lớp tương ứng.
Bài toán ước lượng mật độ xác suất (density estimation): Bài toán ước lượng mật độ xác suất là bài toán kinh điển của khoa học xác suất thống kê. Trong bài toán này, không mất tính tổng quát, ta coi tất cả dữ liệu cùng thuộc về một lớp, nghĩa là mọi dữ liệu có được đều xuất phát từ một phân bố xác suất
nào đó mà ta chưa biết. Bài toán đặt ra là với dữ liệu
và các kiến thức chuyên ngành (các hiểu biết cơ bản về
) ta cần xác định hàm mật độ
“chính xác” nhất có thể được.
Như vậy, ta cần tìm một ước lượng của
. Độ chính xác của ước lượng có thể đánh giá bằng nhiều cách. Ví dụ:
- Dùng khoảng cách
:
- Dùng khoảng cách
:
- Dùng khoảng cách
:
- Dùng khoảng cách Kullback-Leibler:
Các khoảng cách trên đều có tính chất và bằng
khi và chỉ khi
. Một mệnh đề thường thấy khi ước lượng mật độ xác suất là “cần ít nhất
mẫu học để đảm bảo với xác suất
, khoảng cách
“.
Hàm phân bố thực nghiệm (empirical distribution function)
Về mặt lý thuyết, có thể tìm từ tập tất cả các mật độ xác suất có thể có trên
. Hoặc tổng quát hơn, ta có thể tìm ước lượng
của hàm phân bố
. Một phương pháp trực tiếp và khá đơn giản là sử dụng hàm phân bố thực nghiệm.
Trước tiên, giả sử , nghĩa là
. Khi đó hàm phân bố thực nghiệm
định nghĩa như sau
trong đó gọi là hàm chỉ thị (indicator function), nó trả về
nếu mệnh đề đúng và
nếu mệnh đề sai. Nghĩa là hàm
tính tỉ lệ số mẫu học nằm bên trái
trên trục số thực.
Định lý (Glivenko-Cantelli): Khi , xác suất để khoảng cách
bằng
:
Ta nói hàm hội tụ đều (uniform convergence) theo xác suất đến
gần như chắc chắn (xác suất bằng
).
Định lý (bất đẳng thức Dvoretzky–Kiefer–Wolfowitz): Với mẫu học và với mọi
ta có
Định lý cho biết tỉ lệ hội tụ của hàm đến
là tuyến tính theo
. Đồng thời, định lý đúng với bất kể hàm phân bố
nào. Ở đây, nếu đặt
, ta có thể tính
.
Ví dụ: Hỏi cần bao nhiêu mẫu học để với xác suất ít nhất là , khoảng cách
nhỏ hơn
?
Giải: Ta có . Ta cần tìm
để
Như vậy, với mọi hàm phân bố , ta cần
mẫu học để với xác suất ít nhất là
, khoảng cách
nhỏ hơn
.
Định lý Glivenko-Cantelli có thể được mở rộng cho trường hợp , khi đó hàm phân bố thực nghiệm được định nghĩa như sau
trong đó phép so sánh hai véctơ được thực hiện bằng cách so sánh tất cả các tọa độ của cả 2 véctơ.
Lớp các phân bố/mật độ (distribution/density class): Trong trường hợp từ các kiến thức chuyên ngành, ta biết thêm các tính chất của hàm phân phối (hoặc hàm mật độ), ta có thể tiến hành tìm kiếm các ước lượng (hoặc
) trong lớp các hàm mật độ hoăc phân phối thỏa mãn các tính chất này. Giả sử lớp các hàm phân phối thỏa mãn các tính chất đã biết là
, dựa vào dữ liệu
ta cần tìm hàm phân phối
sao cho:
với . Để ý là
nếu
. Như vậy, mệnh đề trên có nghĩa là: với xác suất ít nhất là
, khoảng cách từ ước lượng
đến hàm phân phối
gần
nhất trong lớp các hàm phân phối
nhỏ hơn
.
Giáo sư Vapnik và Chervonenkis đã phát triển lý thuyết VC (VC theory) mang tên hai ông mô tả các điều kiện cần có của lớp hàm phân phối để ta có thể ước lượng được các xác suất trên. Đặc biệt, hai ông gợi ý ta có thể dùng một đại lượng gọi là chiều VC (VC dimension) để mô tả khả năng thể hiện (capacity) của một lớp hàm. Các công thức trong lý thuyết VC ước lượng xác suất tương tự như bất đẳng thức Dvoretzky–Kiefer–Wolfowitz đều chứa đại lượng chiều VC.




