Thứ Ba, 15 tháng 10, 2024

Over-fitting

 Over-fitting (quá khớp?) là một khái niệm trong thống kê học, ngày nay quen thuộc hơn trong machine learning (máy học). Đọc được trong sách của giáo sư Nguyễn Văn Tuấn, Suy nghĩ thống kê trong đời thường.

Ông đưa ra một ví dụ hóm hỉnh, thống kê mức độ hài lòng trong cuộc sống sau ... 10 năm hôn nhân.



Số năm hôn nhân thể hiện trên trục hoành, mức độ hài lòng trên trục tung.

Không biết người ta đo độ hài lòng như thế nào, thế là nhiều hay ít cao hay thấp, ... nhưng tạm thời chúng ta chỉ qua tâm sự thay đổi qua tháng năm. Độ hài lòng đo được trong 10 năm (hôn nhân) chính là 10 cục cứt ruồi trên đồ thị. Người tinh ý dễ để ý thấy, chúng ... có xu hướng giảm dần theo thời gian.

Một trong các mục đích quan trọng nhất của thống kê là dự đoán tương lai. Tương tự, máy học, học trên training data để hoạt động trên new data. Đơn giản nhất, người ta kẻ một đường thẳng đi qua đám cứt ruồi, sao cho có thể đại diện cho chúng, chính là đường thẳng .......

Đúng là đường thẳng này có hệ số hướng xuống, nghĩa là hôn nhân càng lâu, độ hài lòng trong cuộc sống càng giảm. Tuy nhiên, nếu quan sát kỹ, có thể nhận thấy, tuy đám cứt ruồi trông giống như tạo thành một đường thẳng nhưng chúng không hoàn toàn thẳng. Sau cú (sốc) giảm độ hài lòng ở những năm thứ 2 thứ 3 của hôn nhân, sang năm thứ 4 thứ 5 tình trạng có vẻ được phục hồi? Cú lượn này gợi ý cho dân học toán, có thể nên chọn đường parabol thay cho đường thẳng. Parabol là đồ thị của hàm bậc 2, với 2 tham số, trong khi đường thẳng chỉ có 1 tham số, trong trường hợp này dường như là ... under-fitting.

Đường ------- mới vẽ được cũng chỉ ra độ hài lòng giảm dần theo thời gian, nhưng giảm chậm hơn đường thẳng một ít.

Song, người kỹ tính, để ý, sau năm thứ 8 của hôn nhân, năm thứ 9 có vẻ khá khẩm hơn chút. Chưa hài lòng với 2 tham số, người ta có thể đưa ra mô hình ... 9 tham số. Đường cong 9 tham số (đường liền trong đồ thị trên) xuyên qua đám cứt ruồi một cách hoàn hảo, một học sinh xuất sắc ... của máy học. Mô hình này dự đoán mức độ hài lòng trong cuộc sống ... lao dốc sau 10 năm hôn nhân. Thậm chí, cuộc hôn nhân sẽ kết thúc sau 11 năm?

May quá, giáo sư Tuấn chỉ ra, đây là over-fitting. Cậu học sinh xuất sắc của máy học dường như chỉ là một cái máy (hoặc học sinh của nền giáo dục nước v.n).

Một vài ví dụ khác về over-fitting là thói thần tượng hoá (idolatry), kỹ nghệ luyện gà đá (trường chuyên lớp chọn thi học sinh giỏi ...) ... (đều nghe quá quen!?). Hay như trong chuyện ăn uống, thức ăn càng ngon ... càng hại sức khoẻ!


Không có nhận xét nào: