Giả sử bạn có một mô hình hồi quy logistic để phát hiện email rác. Mô hình này dự đoán một giá trị từ 0 đến 1, thể hiện xác suất một email nhất định là email rác. Giá trị dự đoán là 0,50 có nghĩa là email có 50% khả năng là thư rác, giá trị dự đoán là 0,75 có nghĩa là email có 75% khả năng là thư rác, v.v.
Bạn muốn triển khai mô hình này trong một ứng dụng email để lọc thư rác vào một thư mục thư riêng. Tuy nhiên, để làm như vậy, bạn cần chuyển đổi đầu ra số thô của mô hình (ví dụ: 0.75
) vào một trong hai danh mục: "rác" hoặc "không phải
rác".
Để thực hiện việc chuyển đổi này, bạn chọn một xác suất ngưỡng, được gọi là ngưỡng phân loại.
Sau đó, các ví dụ có xác suất cao hơn giá trị ngưỡng sẽ được chỉ định cho lớp dương, lớp mà bạn đang kiểm thử (ở đây là spam
). Các ví dụ có xác suất thấp hơn sẽ được chỉ định cho lớp âm, lớp thay thế (ở đây là not spam
).
Nhấp vào đây để biết thêm thông tin chi tiết về ngưỡng phân loại
Bạn có thể thắc mắc: điều gì sẽ xảy ra nếu điểm số dự đoán bằng ngưỡng phân loại (ví dụ: điểm số là 0,5 trong đó ngưỡng phân loại cũng là 0,5)? Việc xử lý trường hợp này phụ thuộc vào cách triển khai cụ thể được chọn cho mô hình phân loại. Thư viện Keras dự đoán lớp âm nếu điểm số và ngưỡng bằng nhau, nhưng các công cụ/khung khác có thể xử lý trường hợp này theo cách khác.
Giả sử mô hình chấm điểm một email là 0,99, dự đoán email đó có 99% khả năng là thư rác và một email khác là 0,51, dự đoán email đó có 51% khả năng là thư rác. Nếu bạn đặt ngưỡng phân loại thành 0,5, mô hình sẽ phân loại cả hai email là thư rác. Nếu bạn đặt ngưỡng là 0,95, thì chỉ email có điểm số 0,99 mới được phân loại là thư rác.
Mặc dù 0, 5 có vẻ là một ngưỡng trực quan, nhưng bạn không nên sử dụng nếu chi phí của một loại phân loại sai lớn hơn loại còn lại hoặc nếu các lớp không cân bằng. Nếu chỉ 0, 01% email là thư rác hoặc nếu việc phân loại nhầm email hợp lệ còn tệ hơn việc để thư rác vào hộp thư đến, thì việc đánh dấu mọi email mà mô hình cho rằng có ít nhất 50% khả năng là thư rác là thư rác sẽ dẫn đến kết quả không mong muốn.
Ma trận nhầm lẫn
Điểm xác suất không phải là thực tế hoặc sự thật cơ bản. Có 4 kết quả có thể xảy ra cho mỗi kết quả của một thuật toán phân loại nhị phân. Đối với ví dụ về trình phân loại thư rác, nếu bạn trình bày thông tin thực tế dưới dạng cột và thông tin dự đoán của mô hình dưới dạng hàng, thì bảng sau đây (được gọi là ma trận nhầm lẫn) sẽ là kết quả:
Dương tính thực tế | Âm tính thực tế | |
---|---|---|
Dự đoán dương tính | Đúng dương tính (TP): Email rác được phân loại chính xác là email rác. Đây là những thư rác được tự động gửi vào thư mục thư rác. | Thông báo dương tính giả (FP): Email không phải thư rác bị phân loại nhầm là thư rác. Đây là những email hợp lệ nhưng lại bị chuyển vào thư mục thư rác. |
Tiêu cực theo dự đoán | Tỷ lệ âm tính giả (FN): Email rác bị phân loại nhầm là không phải thư rác. Đây là những email vi phạm mà bộ lọc thư rác không phát hiện được và đã lọt vào hộp thư đến. | Không phải thư rác (TN): Email không phải thư rác được phân loại chính xác là không phải thư rác. Đây là những email hợp lệ được gửi trực tiếp vào hộp thư đến. |
Lưu ý rằng tổng số trong mỗi hàng cho biết tất cả các giá trị dương được dự đoán (TP + FP) và tất cả các giá trị âm được dự đoán (FN + TN), bất kể giá trị hợp lệ. Trong khi đó, tổng số trong mỗi cột cho biết tất cả các giá trị dương thực (TP + FN) và tất cả các giá trị âm thực (FP + TN) bất kể cách phân loại mô hình.
Khi tổng số dương tính thực tế không gần với tổng số âm tính thực tế, tập dữ liệu sẽ bất cân bằng. Một thực thể của tập dữ liệu mất cân bằng có thể là một tập hợp hàng nghìn bức ảnh về mây, trong đó loại mây hiếm mà bạn quan tâm (ví dụ: mây xoáy) chỉ xuất hiện một vài lần.
Ảnh hưởng của ngưỡng đối với kết quả dương tính và âm tính thực sự cũng như giả
Các ngưỡng khác nhau thường dẫn đến số lượng kết quả dương tính thật và giả, cũng như số lượng kết quả âm tính thật và giả khác nhau. Video sau đây giải thích lý do dẫn đến việc này.
Hãy thử tự thay đổi ngưỡng.
Tiện ích này bao gồm 3 tập dữ liệu về đồ chơi:
- Được tách biệt, trong đó các ví dụ tích cực và ví dụ tiêu cực thường được phân biệt rõ ràng, với hầu hết các ví dụ tích cực có điểm số cao hơn các ví dụ tiêu cực.
- Không phân tách, trong đó nhiều ví dụ tích cực có điểm số thấp hơn ví dụ tiêu cực và nhiều ví dụ tiêu cực có điểm số cao hơn ví dụ tích cực.
- Không cân bằng, chỉ chứa một vài ví dụ về lớp tích cực.