Confusion Matrix ma trận nhầm lẫn hay ma trận lỗi là một bố cục bảng cụ thể cho phép hình dung hiệu suất của một thuật toán.
Ma trận nhầm lẫn là một trong những kỹ thuật đo lường hiệu suất phổ biến nhất và được sử dụng rộng rãi cho các mô hình phân loại. Nhìn thuât ngữ của nó thì trông có vẻ khó hiểu nhưng thực tế nó lại rất dễ hiểu. Do đó, bài viết này có thể giúp nó trở lên dễ hình dung, dễ hiểu hơn.
Xét ví dụ thực tế : Vào ngày 16/04/2021 tại bệnh viện A có 100 bệnh nhân đến khám một loại bệnh, giả sử biết trước trong 100 bệnh nhân có 60 người mắc bệnh, 40 người không có bênh. Sau khi thăm khám, bệnh viện đưa ra kết quả:
-
Trong 60 người bệnh thật thì có 45 người chuẩn đoán có bệnh, 15 người chuẩn đoán không mắc bệnh.
-
Trong 40 người không mắc bệnh thì có 30 người chuẩn đoán không mắc bệnh, 10 người chuẩn đoán là mắc bệnh.
Từ ma trận cơ bản này, ta sẽ có một số thuật ngữ sau:
- Condition positive (P): Tổng số ca dương tính thực tế.
- Condition Negative (N: Tổng số ca âm tính thực tế.
- True positive (TP): Số các ca dự đoán dương tính đúng hay dương tính thật.
- True negative (TN): Số các ca dự đoán âm tính đúng hay âm tính thật.
- False positive (FP): Số các ca dự đoán dương tính sai hay dương tính giả.
- False negative (FN):: Số các ca dự đoán âm tính sai hay âm tính giả.
Với các thuật ngữ trên, ta có các chỉ số đánh giá sau:
- Độ chính xác – Accuracy:
- Sensitivity, Recall, Hit Rate, Or True Positive Rate (TPR): Độ nhạy - Tỷ lệ dương tính thực:
- Precision Or Positive Predictive Value (PPV): Tỉ lệ dương tính đoán đúng
- NegativePredictive Value (NPV): Tỉ lê âm tính đoán đúng
- Miss Rate Or False Negative Rate (FNR): Tỉ lệ dương tính giả
- Fall-Out Or False Positive Rate (FPR): Tỉ lệ âm tính giả
- False Discovery Rate(FDR): Tỉ lệ đoán dương tính sai
- False Omission Rate (FOR): Tỉ lệ đoán âm tính sai
- F1 score - Điểm F1: Điểm F1 là một trung bình hài hòa Precision và Recall.
- Và còn một số thông số khác nữa, bạn có thể tìm hiểu chi tiết
:Tại đây
Kết luận: Với mỗi bài toán thì tùy vào mục đích và độ ưu tiên kết quả về mặt dương tính hay âm tính ta sẽ sử dụng những chỉ số khác nhau. Tuy nhiên thì ta sẽ hay dùng Accuracy như một chỉ số đánh giá tổng quát cho mô hình.
PS: Mình cũng mới viết bài nên sẽ còn nhiều sai sót, mong mọi người góp ý, bỏ qua cho mình nhé.