Ta đã biết, để tiến hành việc “học” một khái niệm (khái niệm gốc – true concept, ground truth), người ta thường chọn trong một lớp hàm
ra một hàm
phù hợp nhất với dữ liệu vào (sinh ra từ khái niệm
) . Như vậy, lớp hàm
có tính quyết định đối với việc ta có tìm được hàm
(hoặc một hàm gần với
) hay không. Nếu
quá nhỏ (ví dụ: chiều VC nhỏ), rất có thể hàm
khác xa với hàm
. Ngược lại, nếu
quá lớn (ví dụ: chiều VC lớn), rất có thể ta sẽ tìm được hàm
giống với hàm
trên toàn bộ tập mẫu học nhưng lại khác xa hàm
trên những mẫu chưa xuất hiện (hiện tượng học quá – overfitting). Một ví dụ điển hình chính là mạng nơron, một mô hình học máy rất mạnh (chính xác hơn là quá mạnh) nhưng lại rất khó huấn luyện để tránh hiện tượng học quá này.
Như vậy, một lớp hàm “vừa đủ” là rất cần thiết. Nhưng khái niệm “vừa đủ” rất mập mờ vì nó liên quan đến từng bài toán cụ thể mà ta cần giải quyết. Khi nhận ra những điểm yếu của mô hình học máy mạnh và tổng quát như mạng nơron, người ta cho rằng cần phải tận dụng được các kiến thức chuyên ngành (field knowledge) của từng bài toán cụ thể để tạo ra những lớp hàm đủ mạnh (nhưng không quá mạnh, quá tổng quát) để giải quyết riêng từng bài toán. Trong các mô hình như vậy, mô hình đồ thị (graphical model) hiện đang được nghiên cứu rất mạnh. Các đặc điểm của mô hình đồ thị là:
- Khả năng mô tả bài toán một cách trực quan, mô tả được quan hệ giữa các bộ phận của bài toán.
- Khả năng đưa kiến thức chuyên ngành một cách trực tiếp vào mô hình.
- Với những mô hình đồ thị đơn giản (dạng cây, dạng chuỗi), ta có các thuật toán hiệu quả để huấn luyện (training) và truy xuất (query) mô hình. Lớp mô hình đồ thị này tuy đơn giản nhưng lại có ứng dụng rộng khắp (ví dụ: mạng Markov ẩn (Hidden Markov Models – HMMs)).
- Với những mô hình đồ thị phức tạp hơn, người ta chứng minh được việc huấn luyện và truy xuất chúng một cách chính xác là các bài toán NP khó. Như vậy, trên thực tế, không thể huấn luyện hoặc truy xuất các mô hình này một cách chính xác (trừ khi
). Tuy vậy, ta vẫn có các thuật toán xấp xỉ rất hiệu quả.
Hiện nay, việc nghiên cứu các thuật toán xấp xỉ cho mô hình đồ thị cùng với việc xác định cấu trúc hợp lý của mô hình đồ thị cho từng bài toán cụ thể là một vấn đề nghiên cứu hết sức nóng hổi trong ngành Học máy và Trí tuệ nhân tạo.
Để bắt đầu, ta xem xét ví dụ sau: Xét một mô hình đơn giản của thời tiết bao gồm 2 trạng thái Mưa (rain) và Nắng (sunny) và giả sử thời tiết chỉ có thể ở 1 trong 2 trạng thái này. Đồng thời, chuyên gia về thời tiết cho ta biết, khả năng (xác suất) để ngày tiếp theo của một ngày nắng cũng nắng là , còn khả năng để ngày tiếp theo của một này mưa cũng mưa là
. Ngoài ra, chuyên gia còn cho biết các xác suất này không phụ thuộc vào các ngày trước đó (tính chất Markov). Vậy ta có bảng xác suất
| Mưa | Nắng | |
| Mưa | 60% | 40% |
| Nắng | 10% | 90% |
Bảng trên thể hiện xác suất có điều kiện của thời tiết của ngày kế tiếp. Nếu ta đặt là giá trị thời tiết của ngày thứ
thì bảng trên thể hiện phân bố xác suất có điều kiện
, tức là xác suất thời tiết ngày kế tiếp nếu biết thời tiết của ngày trước đó. Đồng thời, do tính chất Markov, ta có
Ta có thể biểu diễn quan hệ này bằng đồ thị như sau:

Đồ thị cho thấy, chỉ phụ thuộc vào
(theo bảng xác suất
) và không phụ thuộc vào
.
Mô hình này vẫn còn thiếu trạng thái ban đầu . Ta có thể chọn xác suất
hoặc đơn giản hơn, ta cố định ngày đầu tiên
luôn là ngày nắng (hoặc mưa)
.
Như vậy, xác suất thời tiết của một chuỗi
ngày là
(công thức xác suất điều kiện)
(do tính chất Markov)
Nhận xét:
- Tính chất Markov (thể hiện qua đồ thị trên) cho phép ta rút gọn tính toán
: Nếu trước đây ta cần một bảng xác suất gồm
phần tử để thể hiện
thì nay ta chỉ cần
bảng xác suất cỡ
và 1 phép tính như trên (ở đây, do các bảng đều giống nhau nên ta chỉ có 2 bảng
và
).
- Nếu nối đồ thị của
lại với nhau ta sẽ có 1 đồ thị dạng dây (chain) như sau

Rõ ràng, tính đơn giản của đồ thị cho phép tính toántrở nên đơn giản.
- Ta còn có thể tính toán các giá trị xác suất có điều kiện khác, ví dụ
,
đây là xác suất có điều kiện của ngày cuối cùng nếu biết trước ngày đầu tiên, trong đó
(do tính phân phối của phép cộng và phép nhân).
- Quá trình tính tổng trên như sau:
- Với mọi giá trị của
tính
,
đây là một hàm của.
- Với mọi giá trị của
tính tổng
.
- Tiếp tục như vậy đến cuối cùng ta được
.
- Với mọi giá trị của
- Hàm
được gọi là thông điệp (message) chuyển từ nút
đến nút
trong mô hình đồ thị. Lưu ý, thông điệp này là một hàm của
. Đôi khi, người ta còn viết
cho rõ hơn.
- Nếu tính bằng thứ tự ngược lại, ta có:
Nghĩa là có thể có nhiều thứ tự để tính giá trị của. Ở đây, ta thấy độ phức tạp tính toán của hai cách tính này tương tự nhau. Ở các bài sau, ta sẽ thấy thứ tự tính toán ảnh hưởng lớn đến độ phức tạp.



