AI Evals trong thực tế: đánh giá bởi con người, LLM làm giám khảo, và những khoảng trống giữa chúng
Phân tích cách đánh giá hệ thống hội thoại AI trong thực tế: kết hợp human evaluation và LLM-as-a-judge, cùng những thách thức về dữ liệu, annotation và “human-like conversation”.