Bối cảnh: chúng tôi xây dựng gì và “thành công” được định nghĩa ra sao
Trong vai trò AI Product Manager, trước đây tôi phụ trách tối ưu hội thoại cho một hệ thống chăm sóc khách hàng dùng AI tại một công ty công nghệ lớn. Chatbot của chúng tôi xử lý lượng truy cập inbound rất lớn đến từ quảng cáo trên công cụ tìm kiếm, trải rộng trên nhiều lĩnh vực như:
-
du lịch
-
y tế
-
giáo dục
-
dịch vụ pháp lý
-
và nhiều lĩnh vực khác
Mục tiêu kinh doanh không chỉ là trả lời câu hỏi của người dùng, mà còn phải:
-
duy trì mức độ tương tác
-
thu thập thông tin liên hệ của người dùng
để đội sales con người có thể tiếp tục xử lý sau đó.
Trong bài viết này, tôi sẽ chia sẻ:
-
framework đánh giá mà chúng tôi xây dựng
-
cách tiếp cận hybrid mà chúng tôi áp dụng
-
những thách thức thực tế chúng tôi gặp phải
Vì sao các metric NLP truyền thống không hoạt động
Các metric NLP truyền thống không phù hợp với trường hợp của chúng tôi.
Chúng không thể đo được liệu AI có:
-
duy trì được hội thoại nhiều lượt (multi-turn)
-
xử lý sự thay đổi ý định của người dùng
-
dần dần khám phá nhu cầu của người dùng
theo cách giúp đẩy cuộc hội thoại tiến về phía trước hay không.
Vì vậy chúng tôi thiết kế một framework đánh giá riêng cho nhiệm vụ này, được benchmark dựa trên các cuộc hội thoại sales và support của con người có hiệu suất cao.
Rubric đánh giá của chúng tôi: 3 chiều chất lượng
Rubric của chúng tôi tập trung vào ba chiều chất lượng cốt lõi, mỗi chiều được chia thành nhiều tiêu chí chi tiết với thang đánh giá rõ ràng.
1. Khả năng giải quyết vấn đề (Resolution capability)
Hệ thống có:
-
suy luận đúng ý định của người dùng
-
cung cấp câu trả lời chính xác và liên quan
hay không?
2. Hiệu quả thương mại (Commercial effectiveness)
Hệ thống có thể:
-
duy trì sự tương tác
-
khai thác sâu hơn nhu cầu người dùng
-
từng bước hướng người dùng đến việc để lại thông tin liên hệ
khi phù hợp hay không?
3. Tính tự nhiên của hội thoại (Conversational naturalness)
Cuộc hội thoại có mang cảm giác giống con người hay không, xét trên các yếu tố như:
-
tính mạch lạc của discourse
-
cấu trúc logic
-
các câu hỏi follow-up hợp lý
-
dòng chảy hội thoại tự nhiên
Workflow của chúng tôi: human evaluation + LLM làm giám khảo
Quy trình đánh giá của chúng tôi sử dụng framework hybrid, kết hợp:
-
đánh giá bởi con người
-
LLM-as-a-judge
Nói chung:
-
các đánh giá mang tính chủ quan vẫn do con người dẫn dắt
-
các đánh giá khách quan thường được tự động hóa bằng LLM
Trong thiết lập của chúng tôi, LLM-as-a-judge được triển khai theo hai hướng:
-
LLM general-purpose dựa trên prompt
-
judge model được fine-tune cho nhiệm vụ cụ thể
Khi tiêu chí đánh giá có thể định nghĩa rõ ràng và operationalize được, các prompt được thiết kế tốt cho phép LLM đưa ra đánh giá khá đáng tin cậy ở quy mô lớn.
Nhưng khi tiêu chí:
-
mơ hồ
-
khó formalize
chúng tôi sử dụng dữ liệu được con người annotate để huấn luyện judge model chuyên biệt, nhằm tăng độ nhất quán và chính xác.
Vòng lặp đánh giá tổng thể
Ở mức cao, quy trình hoạt động như sau:
-
Chạy đánh giá tự động ở quy mô lớn
-
Giữ lại spot-check của con người để đảm bảo chất lượng
-
Review thủ công các hội thoại có điểm thấp để phân tích lỗi
-
Đưa các mẫu lỗi phát hiện được vào vòng lặp thiết kế hội thoại tiếp theo
Vòng lặp bán tự động này giúp chúng tôi cân bằng giữa:
-
quy mô
-
giám sát chất lượng
nhưng đồng thời cũng tạo ra những thách thức mới.
Điều gì đã gặp vấn đề trong thực tế: ba nút thắt
Bottleneck 1: năng lực annotation và hiệu chỉnh
Một trong những nút thắt lớn nhất là khả năng annotation.
Để xây dựng gold dataset, chúng tôi đầu tư nhiều vào:
-
đào tạo annotator
-
nhiều vòng calibration
nhằm đảm bảo intercoder reliability.
Các product manager theo từng ngành sẽ review các mẫu được annotate trước khi đưa chúng vào dataset chính.
Quy trình này tạo ra label chất lượng cao, nhưng:
-
rất tốn kém
-
mất nhiều thời gian.
Bottleneck 2: thiếu dữ liệu gold và vấn đề dữ liệu tổng hợp
Ngay cả với khoản đầu tư lớn, gold dataset vẫn thường quá nhỏ để đáp ứng nhu cầu dữ liệu cho:
-
training model
-
evaluation
Để bổ sung dữ liệu, chúng tôi tạo hội thoại synthetic bằng LLM.
Tuy nhiên, những hội thoại này thường không phản ánh được sự mơ hồ, cảm xúc, hoặc sự chuyển chủ đề của người dùng thật.
Kết quả là:
Model được train hoặc đánh giá bằng dữ liệu synthetic có thể đánh giá quá cao hiệu suất, đặc biệt khi gặp edge cases ngoài đời thực.
Bottleneck 3: sự bất ổn của judge model trong ngữ dụng học
Một thách thức khác là tính ổn định của judge model.
Các LLM làm judge thường gặp khó khăn với:
-
sắc thái ngữ dụng
-
ý nghĩa ngầm
-
sự im lặng của người dùng
Điểm số giữa các lần chạy có thể dao động đáng kể.
Trong khi đó, việc mở rộng human evaluation lên quy mô production là không khả thi về mặt vận hành.
Điều này tạo ra một mâu thuẫn thực tế:
-
đánh giá tự động cần thiết để mở rộng quy mô
-
nhưng lại kém đáng tin cậy nhất ở những phần tinh tế của hội thoại
Câu hỏi khó nhất: “giống con người” nghĩa là gì?
Phần khó nhất về mặt khái niệm khi đánh giá hội thoại AI là định nghĩa “human-like”.
Việc operationalize hội thoại giống con người đòi hỏi xử lý nhiều yếu tố:
-
độ nhạy với bối cảnh
-
động lực turn-taking
-
mô hình hóa sự đồng cảm
-
coherence ở cấp discourse
Điều này cũng đặt ra câu hỏi sâu hơn:
AI hiện tại nên đạt mức độ tương đương con người đến đâu?
Vì vậy, đánh giá AI không chỉ là vấn đề đo lường kỹ thuật.
Nó còn phản ánh:
-
định vị sản phẩm
-
kỳ vọng của tổ chức
Và khi tiêu chí chất lượng liên quan đến những giá trị phức tạp hoặc mơ hồ, sự đồng thuận giữa các stakeholder trở nên cực kỳ quan trọng.
Những gì tôi học được: các ràng buộc cấu trúc phía sau
Sau khi nhìn lại những thách thức này, tôi nhận ra chúng xuất phát từ ba ràng buộc cấu trúc:
-
khả năng của model
-
nguồn lực con người
-
phạm vi tổ chức
Thứ nhất, nếu muốn tiến tới đánh giá tự động nhiều hơn, LLM cần trở nên đáng tin cậy hơn trong suy luận ngữ dụng.
Thứ hai, một lực lượng annotator được đào tạo chuyên nghiệp là yếu tố quan trọng để duy trì chất lượng và tính nhất quán của đánh giá.
Cuối cùng, evaluation không thể thuộc về một bộ phận duy nhất.
Nó cần sự hợp tác đa chức năng, nhằm xây dựng hiểu biết toàn diện và ít thiên lệch hơn về chất lượng, đồng thời thống nhất định nghĩa “tốt” nghĩa là gì.
Lĩnh vực AI Evals đang phát triển rất nhanh. Tôi rất mong được tiếp tục trao đổi với các practitioner khác, học hỏi những gì hiệu quả, và thành thật về những gì không.
Nếu bạn thấy chủ đề này thú vị, hãy kết nối với tôi trên LinkedIn để tiếp tục cuộc thảo luận.