AI Evals trong thực tế: đánh giá bởi con người, LLM làm giám khảo, và những khoảng trống giữa chúng

Bối cảnh: chúng tôi xây dựng gì và “thành công” được định nghĩa ra sao

Trong vai trò AI Product Manager, trước đây tôi phụ trách tối ưu hội thoại cho một hệ thống chăm sóc khách hàng dùng AI tại một công ty công nghệ lớn. Chatbot của chúng tôi xử lý lượng truy cập inbound rất lớn đến từ quảng cáo trên công cụ tìm kiếm, trải rộng trên nhiều lĩnh vực như:

  • du lịch

  • y tế

  • giáo dục

  • dịch vụ pháp lý

  • và nhiều lĩnh vực khác

Mục tiêu kinh doanh không chỉ là trả lời câu hỏi của người dùng, mà còn phải:

  • duy trì mức độ tương tác

  • thu thập thông tin liên hệ của người dùng

để đội sales con người có thể tiếp tục xử lý sau đó.

Trong bài viết này, tôi sẽ chia sẻ:

  • framework đánh giá mà chúng tôi xây dựng

  • cách tiếp cận hybrid mà chúng tôi áp dụng

  • những thách thức thực tế chúng tôi gặp phải


Vì sao các metric NLP truyền thống không hoạt động

Các metric NLP truyền thống không phù hợp với trường hợp của chúng tôi.

Chúng không thể đo được liệu AI có:

  • duy trì được hội thoại nhiều lượt (multi-turn)

  • xử lý sự thay đổi ý định của người dùng

  • dần dần khám phá nhu cầu của người dùng

theo cách giúp đẩy cuộc hội thoại tiến về phía trước hay không.

Vì vậy chúng tôi thiết kế một framework đánh giá riêng cho nhiệm vụ này, được benchmark dựa trên các cuộc hội thoại sales và support của con người có hiệu suất cao.


Rubric đánh giá của chúng tôi: 3 chiều chất lượng

Rubric của chúng tôi tập trung vào ba chiều chất lượng cốt lõi, mỗi chiều được chia thành nhiều tiêu chí chi tiết với thang đánh giá rõ ràng.

1. Khả năng giải quyết vấn đề (Resolution capability)

Hệ thống có:

  • suy luận đúng ý định của người dùng

  • cung cấp câu trả lời chính xác và liên quan

hay không?


2. Hiệu quả thương mại (Commercial effectiveness)

Hệ thống có thể:

  • duy trì sự tương tác

  • khai thác sâu hơn nhu cầu người dùng

  • từng bước hướng người dùng đến việc để lại thông tin liên hệ

khi phù hợp hay không?


3. Tính tự nhiên của hội thoại (Conversational naturalness)

Cuộc hội thoại có mang cảm giác giống con người hay không, xét trên các yếu tố như:

  • tính mạch lạc của discourse

  • cấu trúc logic

  • các câu hỏi follow-up hợp lý

  • dòng chảy hội thoại tự nhiên


Workflow của chúng tôi: human evaluation + LLM làm giám khảo

Quy trình đánh giá của chúng tôi sử dụng framework hybrid, kết hợp:

  • đánh giá bởi con người

  • LLM-as-a-judge

Nói chung:

  • các đánh giá mang tính chủ quan vẫn do con người dẫn dắt

  • các đánh giá khách quan thường được tự động hóa bằng LLM

Trong thiết lập của chúng tôi, LLM-as-a-judge được triển khai theo hai hướng:

  1. LLM general-purpose dựa trên prompt

  2. judge model được fine-tune cho nhiệm vụ cụ thể

Khi tiêu chí đánh giá có thể định nghĩa rõ ràng và operationalize được, các prompt được thiết kế tốt cho phép LLM đưa ra đánh giá khá đáng tin cậy ở quy mô lớn.

Nhưng khi tiêu chí:

  • mơ hồ

  • khó formalize

chúng tôi sử dụng dữ liệu được con người annotate để huấn luyện judge model chuyên biệt, nhằm tăng độ nhất quán và chính xác.


Vòng lặp đánh giá tổng thể

Ở mức cao, quy trình hoạt động như sau:

  1. Chạy đánh giá tự động ở quy mô lớn

  2. Giữ lại spot-check của con người để đảm bảo chất lượng

  3. Review thủ công các hội thoại có điểm thấp để phân tích lỗi

  4. Đưa các mẫu lỗi phát hiện được vào vòng lặp thiết kế hội thoại tiếp theo

Vòng lặp bán tự động này giúp chúng tôi cân bằng giữa:

  • quy mô

  • giám sát chất lượng

nhưng đồng thời cũng tạo ra những thách thức mới.


Điều gì đã gặp vấn đề trong thực tế: ba nút thắt

Bottleneck 1: năng lực annotation và hiệu chỉnh

Một trong những nút thắt lớn nhất là khả năng annotation.

Để xây dựng gold dataset, chúng tôi đầu tư nhiều vào:

  • đào tạo annotator

  • nhiều vòng calibration

nhằm đảm bảo intercoder reliability.

Các product manager theo từng ngành sẽ review các mẫu được annotate trước khi đưa chúng vào dataset chính.

Quy trình này tạo ra label chất lượng cao, nhưng:

  • rất tốn kém

  • mất nhiều thời gian.


Bottleneck 2: thiếu dữ liệu gold và vấn đề dữ liệu tổng hợp

Ngay cả với khoản đầu tư lớn, gold dataset vẫn thường quá nhỏ để đáp ứng nhu cầu dữ liệu cho:

  • training model

  • evaluation

Để bổ sung dữ liệu, chúng tôi tạo hội thoại synthetic bằng LLM.

Tuy nhiên, những hội thoại này thường không phản ánh được sự mơ hồ, cảm xúc, hoặc sự chuyển chủ đề của người dùng thật.

Kết quả là:

Model được train hoặc đánh giá bằng dữ liệu synthetic có thể đánh giá quá cao hiệu suất, đặc biệt khi gặp edge cases ngoài đời thực.


Bottleneck 3: sự bất ổn của judge model trong ngữ dụng học

Một thách thức khác là tính ổn định của judge model.

Các LLM làm judge thường gặp khó khăn với:

  • sắc thái ngữ dụng

  • ý nghĩa ngầm

  • sự im lặng của người dùng

Điểm số giữa các lần chạy có thể dao động đáng kể.

Trong khi đó, việc mở rộng human evaluation lên quy mô productionkhông khả thi về mặt vận hành.

Điều này tạo ra một mâu thuẫn thực tế:

  • đánh giá tự động cần thiết để mở rộng quy mô

  • nhưng lại kém đáng tin cậy nhất ở những phần tinh tế của hội thoại


Câu hỏi khó nhất: “giống con người” nghĩa là gì?

Phần khó nhất về mặt khái niệm khi đánh giá hội thoại AI là định nghĩa “human-like”.

Việc operationalize hội thoại giống con người đòi hỏi xử lý nhiều yếu tố:

  • độ nhạy với bối cảnh

  • động lực turn-taking

  • mô hình hóa sự đồng cảm

  • coherence ở cấp discourse

Điều này cũng đặt ra câu hỏi sâu hơn:

AI hiện tại nên đạt mức độ tương đương con người đến đâu?

Vì vậy, đánh giá AI không chỉ là vấn đề đo lường kỹ thuật.

Nó còn phản ánh:

  • định vị sản phẩm

  • kỳ vọng của tổ chức

Và khi tiêu chí chất lượng liên quan đến những giá trị phức tạp hoặc mơ hồ, sự đồng thuận giữa các stakeholder trở nên cực kỳ quan trọng.


Những gì tôi học được: các ràng buộc cấu trúc phía sau

Sau khi nhìn lại những thách thức này, tôi nhận ra chúng xuất phát từ ba ràng buộc cấu trúc:

  1. khả năng của model

  2. nguồn lực con người

  3. phạm vi tổ chức

Thứ nhất, nếu muốn tiến tới đánh giá tự động nhiều hơn, LLM cần trở nên đáng tin cậy hơn trong suy luận ngữ dụng.

Thứ hai, một lực lượng annotator được đào tạo chuyên nghiệp là yếu tố quan trọng để duy trì chất lượng và tính nhất quán của đánh giá.

Cuối cùng, evaluation không thể thuộc về một bộ phận duy nhất.

Nó cần sự hợp tác đa chức năng, nhằm xây dựng hiểu biết toàn diện và ít thiên lệch hơn về chất lượng, đồng thời thống nhất định nghĩa “tốt” nghĩa là gì.


Lĩnh vực AI Evals đang phát triển rất nhanh. Tôi rất mong được tiếp tục trao đổi với các practitioner khác, học hỏi những gì hiệu quả, và thành thật về những gì không.

Nếu bạn thấy chủ đề này thú vị, hãy kết nối với tôi trên LinkedIn để tiếp tục cuộc thảo luận.