Trong quá trình tìm hiểu về việc sử dụng RL trong quá trình post-training trong LLM, có khá nhiều thắc mắc cũng như vấn đề mà mình suy nghĩ đến. Và tình cờ mình tìm được paper khá đúng với những gì mình đang suy nghĩ.
Paper: RL IN NAME ONLY? ANALYZING THE STRUCTURAL ASSUMPTIONS IN RL POST-TRAINING FOR LLMS
Trong thời gian gần đây, các phương pháp huấn luyện hậu kỳ (post-training) cho các mô hình ngôn ngữ lớn (LLMs) sử dụng học tăng cường (Reinforcement Learning - RL), đặc biệt là phương pháp Group Relative Policy Optimization (GRPO), đã thu hút sự chú ý đáng kể. Những phương pháp này thường mô hình hóa quá trình sinh văn bản của LLMs như một Bài toán Quyết định Markov (Markov Decision Process - MDP), với giả định rằng việc áp dụng RL sẽ cải thiện khả năng suy luận của mô hình. Nhưng vấn đề mà cá nhân mình nhìn thấy và có lẽ mấy anh tác giả cx nhìn thấy được là cách mô hình hoá dưới dạng MDP thật ra đang không đúng lắm?
Quay lại một xíu, ví dụ với GRPO khá nổi gần đây. Tổng quan cách hoạt động của nó là cho LLM sinh một nhóm các kết quả (hay là phản hồi). Với mỗi một kết quả này thì ta sẽ tính được phần thưởng cho chính nó. Sau đó gom lại, chuẩn hoá lại trong nhóm kết quả đó, chủ yếu để xác định phản hồi nào tốt hơn mức độ tương đối trong nhóm.
Với tổng quan ở trên thì mình thấy có vấn đề khá cấn đó là nó không thực sự giống một bài toán MDP lắm mà đang giống như một MDP suy biến, làm mất bản chất của RL và biến quan quá trình huấn luyện này thành học có giám sát.
Quay lại với paper, tác giả đang muốn trả lời một câu hỏi : Liệu việc mô hình hóa này có thực sự cần thiết và hiệu quả?
Cách triển khai và phân tích
1. Mô hình hóa LLMs như một MDP
Nhóm tác giả phân tích cách mà các phương pháp hiện tại mô hình hóa quá trình sinh văn bản của LLMs như một MDP:
-
Trạng thái (State): Là chuỗi các token đã sinh ra trước đó.
-
Hành động (Action): Là token tiếp theo được sinh ra.
-
Chuyển trạng thái: Là việc nối token mới vào chuỗi hiện tại.
-
Phần thưởng (Reward): Chỉ được cung cấp sau khi sinh toàn bộ chuỗi, dựa trên đánh giá của một bộ kiểm tra bên ngoài (external verifier).
Hai giả định cấu trúc quan trọng trong mô hình này là:
- Trạng thái là chuỗi các hành động: Mỗi trạng thái chứa toàn bộ lịch sử các hành động (token) đã thực hiện, làm mất đi tính Markov của quá trình.
- Phân bổ phần thưởng đều: Phần thưởng cuối cùng được chia đều cho tất cả các token trong chuỗi, không phản ánh chính xác đóng góp của từng hành động.
Những giả định này dẫn đến một MDP suy biến, nơi mà hành động của tác nhân không ảnh hưởng đến phần thưởng nhận được, làm mất đi bản chất của RL.
2. Phân tích GRPO như học có giám sát
Nhóm tác giả chỉ ra rằng, dưới các giả định cấu trúc trên, mục tiêu tối ưu hóa của GRPO thực chất tương đương với một phương pháp học có giám sát lặp lại (iterative supervised fine-tuning). Cụ thể:
-
GRPO sử dụng phần thưởng nhị phân (đúng/sai) từ bộ kiểm tra bên ngoài.
-
Phần thưởng được phân bổ đều cho mỗi token trong chuỗi.
-
Mục tiêu tối ưu hóa trở thành việc tăng xác suất sinh ra các token trong các chuỗi được đánh giá là đúng, và giảm xác suất cho các chuỗi sai.
Điều này cho thấy GRPO không thực sự tận dụng được lợi ích của RL, mà chỉ là một hình thức học có giám sát với dữ liệu được lọc.
3. Hiệu ứng "suy nghĩ dài hơn"
Một quan sát thú vị là các mô hình được huấn luyện bằng GRPO có xu hướng sinh ra các chuỗi dài hơn. Nhóm tác giả phân tích rằng điều này không phải do mô hình cải thiện khả năng suy luận, mà là hệ quả của việc phân bổ phần thưởng đều cho mỗi token. Cụ thể:
-
Đối với các chuỗi đúng, việc chia phần thưởng đều cho nhiều token không ảnh hưởng đến tổng phần thưởng.
-
Đối với các chuỗi sai, việc chia phần thưởng âm đều cho nhiều token làm giảm mức phạt trung bình cho mỗi token, khuyến khích mô hình sinh ra các chuỗi dài hơn để giảm thiểu phạt.
Điều này dẫn đến việc mô hình sinh ra các phản hồi dài hơn, không nhất thiết cải thiện chất lượng hoặc tính chính xác của phản hồi.
Thực nghiệm
Nhóm tác giả thực hiện các thí nghiệm trên hai bộ dữ liệu:
- GSM8K: Bài toán toán học cấp tiểu học.
- Countdown: Trò chơi toán học yêu cầu kết hợp các số để đạt được mục tiêu.
Sử dụng các mô hình Qwen-2.5 với kích thước 0.5B và 1.5B, họ so sánh hiệu suất của các phương pháp:
- GRPO: Phương pháp học tăng cường với phân bổ phần thưởng đều.
- GRPO không có KL: GRPO không sử dụng điều chỉnh KL divergence.
- Filtered-ISFT+: Học có giám sát với các mẫu đúng.
- Filtered-ISFT-: Học có giám sát với các mẫu sai.
- Filtered-ISFT+-: Học có giám sát với cả mẫu đúng và sai.
Kết quả cho thấy:
- Filtered-ISFT+- đạt hiệu suất tương đương với GRPO trên cả hai bộ dữ liệu.
- Filtered-ISFT+ cũng đạt hiệu suất gần như GRPO, đặc biệt trên GSM8K.
- Filtered-ISFT- kém hiệu quả hơn, đặc biệt trên Countdown.
Điều này củng cố lập luận rằng GRPO, dưới các giả định cấu trúc hiện tại, không mang lại lợi ích vượt trội so với học có giám sát.
Kết luận
Bài báo "RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs" đưa ra một phân tích sâu sắc về việc áp dụng học tăng cường trong huấn luyện hậu kỳ của các mô hình ngôn ngữ lớn. Nhóm tác giả chỉ ra rằng các giả định cấu trúc phổ biến trong mô hình hóa MDP dẫn đến một MDP suy biến, làm mất đi bản chất của RL và biến quá trình huấn luyện thành học có giám sát. Họ khuyến nghị rằng cần xem xét lại các giả định này và cân nhắc sử dụng các phương pháp học có giám sát với dữ liệu được lọc, vốn đơn giản hơn và hiệu quả tương đương.