Nếu bạn thấy hay, hãy upvote và bookmark cho mình nhé, chỉ đơn giản là động lực nhỏ để mình ngồi đọc và chia sẻ cùng mọi người những điều hay ho khi ngồi nghịch những tech mới thôi kk. Đây là một paper khá hay, nếu không đọc bài của mình thì cũng nên đọc qua thử paper nhé 😉, đâu mất gì đâu.
Mở đầu.
Ở bài viết phần 1 trước đó thì mình đã từng nói qua các khái niệm về khả năng của LLm như Reasoning, Planning, Function Calling, ... cách hình thành, một số dạng data và cách hoạt động cũng như sự phát triển của nó. Đồng thời cũng nói đến các cáchbật reasoning
của các LLm thường dùng, rồi thách thức và một số kết luận.
Tóm gọn : model LLm thường để có thể reasoning tốt thì nó cần có sự feedback, hướng dẫn từ môi trường có thể nhận bằng các reward thông qua các reasoning step (hay các actions, ...). Và một trong các vũ khí tối tân nhất để làm việc đó là Reinforcement Learning
hay nổi tiếng nhất gần đây là Reinforcement Learning With Verifiable Rewards (RLVR)
.
Tuy nhiên thì có một paper chỉ ra rằng điều đó RL chưa phải là một cách tối ưu nhất, cũng như tăng khả năng reasoning của model. Thì bài viết này sẽ overview qua xem các luận điểm cũng như kết quả của các pháp sư đã làm và chứng minh trong đó.
Paper : Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
Như thường lệ :
- Đây chỉ là một bài overview, mình là engineer không phải researcher, chỉ đơn giản là sự tò mò đưa mình đi vọc vạch đủ thứ.
- Mình sẽ chỉ tóm tắt nhưng ý chính, nhưng thứ bản thân mình thấy hay, đương nhiên sẽ bỏ đi nhiều thứ nên khuyến khích mọi người ngồi vọc vạch paper trực tiếp nhé 🫠
Một số khái niệm quan trọng.
Oke thì chúng ta cần hiểu một vài khái niệm quan trọng trước khi đi đào sâu vào các vấn đề và phát hiện mà trong paper đề cập đến.
Đó là RL và RLVR. Trước khi đi tiếp thì mình muốn confirm lại là ý định bài viết này không phải là về thuần toán, hay thuần RL, RLVR hay nhưng thứ thuật toán optimize như dpo, ppo hay grpo, bla bla mà chỉ giới thiệu sơ lược, đủ hiểu để phân tích về paper ở trên, còn nhưng thứ sâu hơn sẽ dành ra một bài viết khác tập trung hơn về nó.
Oke, let's move on.
RL hay Reinforcement Learning.
Reinforcement Learning (RL) is a type of machine learning where an agent learns to make sequential decisions by interacting with an environment. The goal of the agent is to maximize cumulative rewards over time by learning which actions yield the best outcomes in different states of the environment
Định nghĩa nó ở trên, thì như tên của nó Reinforcement Learning - học tăng cường, là việc đi tối ưu một tác nhân (agent) học cách đưa ra một chuỗi các hành động (action) trong một môi trường (enviroment) để tối đa hoá phần thưởng (reward) tích luỹ theo thời gian.
Môi trường thường được mô hình hoá dưới dạng một Markov Decision Process (MDP) gồm :
- State (s) : Trạng thái hiện tại của môi trường.
- Action (a) : Hành động mà agent có thể thực hiện được
- Reward (r) : Phần thưởng mà agent nhận được ngay sau khi thực hiện action.
- Transition P(s' | s, a) : Xác suất chuyển từ state s sang state s' khi thực hiện action a.
- Policy π(a|s) : Chiến lược agent, xác định xác suất chọn action a khi ở state s.
Mục tiêu ở đây là tìm policy sao cho nhận về tối đa phần thưởng (expected return). Công thức thì như dưới, với là hệ số chiết khấu.
Cách hoạt động của nó đơn giản như sau:
- Khởi tạo policy.
- Agent quan sát , chọn action , nhận reward và chuyển sang state .
- Cập nhật lại Policy dựa vào () để maximize reward, từ đây xuất hiện các thuật toán khác nhau như Q-learning, hay policy gradient như ppo, ...
- Lặp lại cho đến khi hội tụ.
hừm, vậy thì kết hợp tư tưởng RL cho LLM thì nó sẽ như thế nào ? Thông thường thì nó sẽ là RLHF (Reinforcement Learning with Human Feedback).
Vì đây không phải là một phân tích sâu hẳn vào RL nên mình sẽ chỉ giải thích đơn giản như này :
- Policy ở trên chính là LLM.
- Reward Model : Chính là model được train từ human feedback.
- State : Có thể hiểu là prompt đầu vào.
- Action : là output của model sau khi generate từ state
State (prompt) ➙(LLM) (1) ➙Action (output) ➙ (Reward Model)(2) ➙ Reward Signal ➙ Update policy model weights (3)
(1): Đối với mỗi state (prompt), policy (LLm) sẽ đưa ra Action (Output).
(2): Với từng cặp State, Action thì Reward Model sẽ đánh giá và đưa ra Reward Signal (đối với RLHF bình thường thì sẽ là ở dạng numerical).
(3): Từ Reward Signal sẽ cập nhật lại Policy sao cho đưa ra action đạt được reward cao hơn, ở đây sẽ sử dụng Policy Gradient, các dạng PPO, .... Hình dung nó giống như Gradient Descent trong ML để tối ưu hàm Loss ý, nhưng ở đây cần sử dụng là Gradient Ascent nhằm tối đa hàm Reward nhận được.
RLVR hay Reinforcement Learning with Verifiable Feedback.
RLVR starts with a pretrained base model or one fine-tuned on long chains of thought (CoT) data, optimizing it via reinforcement learning based on simple, automatically computable rewards. These rewards are determined by whether the model’s output matches a ground-truth solution in mathematics or passes unit tests in code, thus enabling scalability without human labeling
Trong paper có giải thích nó như trên, thay vì sử dụng một Reward Model như của RLHF và được train trên rất nhiều data human feedback để đánh giá cặp prompt và output thì ở đây sử dụng Verfiable Reward, được tạo ra bằng cách rất đơn giản là kiểm tra output của model so với đáp án đúng trong toán, hoặc pass qua toàn bộ unit test trong nhiệm vụ liên quan đến coding.
Note.
Về cơ bản thì RLVR cũng gần giống với RFHF chỉ khác mỗi ở việc định nghĩa và cách sử dụng Reward Model thôi. 🫠.
Vấn đề xảy ra.
Oke, thì với sự hiện diện của rất nhiều model lớn, khả năng reasoning tốt, đạt score cao trên các benchmark như OpenAI o1, hay DeepSeekR1, Kimi-1.5, ... Càng minh chứng cho sức nóng RLVR trong việc nâng cao khả năng suy luận của mô hình.
Qua sự thành công lớn của RLVF, thì vẫn có một câu hỏi quan trọng được đặt ra :
Does RLVR really bring novel reasoning capabilities to LLMs? If so, what does the model learn from RLVR training?
Để nhận định được khả năng reasoning của model, thông thường người ta sẽ sử dụng một metrics phổ biến là : single-pass success rate or average nucleus sampling
, tức là chỉ cần pass 1 trong số các lần thử thì model được coi là giải quyết được vấn đề.
a model’s true reasoning potential may be underestimated if it fails on difficult problems after only a few attempts, even if it could succeed with more sampling
Tuy nhiên như trên thì tác giả có nhận định rằng, việc đánh giá khả năng reasoning của model vẫn còn bị đánh giá thấp, các metrics đó chỉ phản ảnh hiệu suất trung bình của mô hình, chứ không cho thấy giới hạn tối đa về khả năng suy luận.
Luận điểm của tác giả.
Pass@k metrics.
Từ những vấn đề trên, và để so sánh khả năng reasoning của base model và RLVR-model, tác giả đề xuất 1 metrics khác đó là Pass@k metrics, hiểu đơn giản thì : Lấy mẫu k đầu ra cho một vấn đề, nếu ít nhất một đầu ra đúng, pass@k là 1, nếu không là 0. Trung bình pass@k trên tập dữ liệu cho thấy tỷ lệ vấn đề mà mô hình có thể giải trong k lần thử.
Đây là một cách đánh giá nghiêm ngặt khả năng reasoning của LLMs. Tuy nhiên nếu lấy k mẫu trực tiếp có thể gây ra biến thiên lớn (high variance). Để khắc phục điều này, sử dụng một phương pháp ước lượng không lệch (unbias estimator) : Sinh ra n mẫu (n >=k) cho mỗi vấn đề, đếm số mẫu đúng () và tính pass@k theo công thức :
Trên là công thức tính xác suất kỳ vọng trên tập dữ liệu sao cho trong k lần mẫu có ít nhất 1 lần đúng :
- n là số mẫu sinh ra cho mỗi vấn đề (n >=k)
- là số trong n mẫu đó đã đúng (pass)
- là số cách chọn k mẫu bất kỳ từ n mẫu tổng cộng.
- là số cách chọn k mẫu thất bại (không đúng) từ n - mẫu sai.
- : Xác suất chọn ra k mẫu mà không có cái nào đúng (toàn bộ sai). nghược lại thì 1 - ... : là xác suất chọn ra ít nhất một mẫu đúng trong k lần thử. Lấy theo kỳ vọng ~ D (trung bình qua toàn bộ dữ liệu), cho thức đo pass@k cho cả mô hình.
Một số khám phá từ việc thử nghiệm và so sánh base model và RLVR trained model.
RLVR-trained model perform worse than base model in pass@k at large k values
Tác giả có kiểm chứng rằng với k nhỏ, thì RLVR-trained model hoàn toàn đè bẹp các base model, nhưng ở k lớn, các base model lại vượt trội hơn, đạt pass@k cao hơn mô hình RLVR, đặc biệt ở các nhiệm vụ khó. Đồng thời, kiểm tra thủ công CoT của mô hình sinh ra để đảm báo hầu hết các vấn đề có ít nhất một CoT đúng để không bị dấn đến vấn đề Hacking - CoT sai, nhưng kết quả đúng.
➙ Thông qua đó, tác giả nhận định rằng, huấn luyện RL không thật sự cải thiện mà thậm chí còn làm giảm khả năng suy luận tiềm năng của LLm.
RLVR boosts sampling efficiency but reduces the scope of reasoning capacity.
RLVR làm tăng khả năng lấy mẫu hiệu quả (sampling) nhưng mà lại làm giảm khả năng suy luận của mô hình gốc. Nhóm tác giả phát hiện ra rằng : Reasing path mà RLVR-trained model sinh ra thực ra đã tồn tại sẵn trong base model. RLVR chỉ đơn giản là khiến model
bias
- thiện vị hơn các reasoning path mà nó có khả năng lấy được phần thưởng cao, và tăng khả năng lấy mẫu đúng.
Tuy nhiên, điều này làm giảm khả năng khám phá của mô hình, dẫn đến phạm vi các bài toán có thể giải được nhỏ hơn ở k lớn so với mô hình gốc. Mô tả ở hình ở trên.
RLVR algorithms perform similarly and remain far from optimal.
Các thuật toán RLVR hoạt động tương tự nhau và còn xa mức tối ưu. Dù các thuật toán RL khác nhau như PPO, GRPO, ... có hiệu suất khác nhau nhưng không tạo ra được sự khác biệt đang kể, chủ yếu chênh lệch ở pass@1 hay các k bé, nhưng khi tăng k lớn lên (k=256, được coi là giới hạn trên tiềm năng). Kết quả cho thấy rằng các thuật toán RL hiện tại, chủ yếu là cải thiện việc lấy mẫu hiệu quả, vẫn còn cách xa việc tối ưu.
RLVR and distillation are fundamentally different.
RLVF và distillation về cơ bản là khác nhau. RLVF cải thiện hiệu quả lấy mẫu, nhưng distillation thực sự đưa kiến thức mới vào mô hình, giúp mô hình distillation mở rộng khả năng suy luận vượt xa base mode. Nghược lại, khả năng của mô hinh RLVR-trained model bị giới hạn bởi mô hình gốc.
RLVR hiện tại không đủ để thúc đẩy khả năng vượt qua giới hạn của mô hình gốc. Nghiên cứu này, thách thức hiểu biết về RLVR và cho thấy RLVR có thể không đủ để mở rộng ranh giới khả năng suy luận.
Nhưng mà có một vài giả thuyết như việc mô hình suy luận chỉ tốt khi ở các mô hình đủ lớn
(Mình nhớ không nhầm có paper nào bảo từ 32b đổ lên thì phải, cái này thì chưa confirm nhé 😅), việc distillation xuống các mô hình nhỏ hơn như deepseek hay qwen làm ở các mô hình suy luận là việc cần thiết để các mô hình nhỏ có thể bắt chước
các behavior mà các mô hình lớn đã đạt được, từ đó đạt được sota lớn hơn. Tuy cũng có paper nói rằng việc distill như thế, model không còn khả năng optimize reasoning path nữa, thi nó sẽ bị random và yếu hơn, điều này cũng cần thử nghiệm và phân tích nhiều hơn.
Deep analysis.
Hold up : trong paper tác giả có một nhận định khá hay : Việc reasoning path mà RLVR lấy ra thực chất đã có sẵn trong Base Model. Điều này nhóm tác giả đã chứng minh như nào ?
Ở đây, tác giả sử dụng metrics perplexity (the perplexity is defined as the exponentiated average negative log-likelihood of a sequence
) được sử dụng như một thước đo để đánh giá khả năng dự đoán của mô hình cơ sở đối với phản hồi do mô hình RL sinh ra.
Công thức của nó như sau :
Trong đó :
- : Chuỗi phản hồi được tạo ra.
- x : Prompt đầu vào
- m : Mô hình (có thể là mô hình base, hoặc mô hình khác).
- : Xác suất có điều kiện của ký tự dựa trên pỏmpt và các ký tự trước đó.
- T là độ dài chuỗi Y.
Khi mô hình quen thuộc
hay hiểu chuỗi respone Y thì cao gần 1 ➙ log P sấp xỉ 0 ➙ trung bình của log cũng sẽ gần 0 ➙ exp (0) = 1 ➙ do đó PPL sẽ gần 1 (mức thấp nhất có thể) ➙ Thể hiện cho việc mô hình quen thuộc và có thể generate ra được chuỗi Y.
Sau đó thì tác giả đã thử nghiệm và tính toán PPL trên nhiều dạng model và có được kết quả như trên. Qua đó thì cso 3 kết luận quan trọng được rút ra :
- RLVR không khai thác khả năng lý luận mới : Không tạo thành một lý luận mới, vượt ngoài ra khỏi mô hình base. Hay, mô hình RL bị giới hạn bởi khả năng vốn có của mô hình base.
- RLVR cải thiện hiệu quả lấy mẫu : Mặc dù không mở rộng lý luận mới, nhưng RL lại cải thiện pass@1, hay là khả năng chọn đúng reasoning path ngay từ lần thử đầu tiên. Điều này cho thấy RL điều chỉnh phân phối đầu ra, giúp tăng xác suất lấy mẫu các phản hồi đúng có sẵn trong các mô hình base.
- RLVR thu hẹp biên lý luận : pass@k giảm khi k lớn (như khi xem xét nhiều phản hồi hơn). Nguyên nhân là do RL có xu hướng giảm entropy đầu ra (hay ý nói độ đa dạng của các phản hồi) dẫn đến việc hạn chế trong việc khám phá các đường lý luận khác.
Sự khác biệt chính giữa RL truyền thống và RLVR cho LLM.
ở đây thì tác giả tập trung vào việc so sánh RL truyền thống (như AlphaGo Zero, ...) với RLVR khi áp dụng cho các mô hình LLm, qua đó giải thích tại sao RLVR không thể nâng cao khả năng suy luận vượt xa mô hình cơ sở. Có 2 ý chính :
-
Không gian hành động (Action Space). :
- Trong RL truyền thống, khi chơi cờ GO, hay trò chơi Atari, không giạn hành động là hữu hạn và có thể quản lý được (ví dụ các nước đi trên bàn cờ, hay các thao tác điều khiển trong Atarin).
- Nghược lại, với LLM, Action Space lớn hơn rất nhiều do tính chất tổ hợp của ngôn ngữ (tạo ra các chuỗi token), sự rộng lớn này khiến cho việc khám phá theo reward trở nên cực kỳ khó khăn nếu bắt đầu từ con số 0.
➙ Việc không gian khổng lồ của LLM tạo ra thách thức lớn đối với RL vốn không được thiết kế để xử lý độ phức tạp như thế, nếu không có kiến thức, thì hầu như sẽ không thể đạt được hiệu quả
-
Kiến thức tiền huấn luyện (Pretrained Priors) :
- RL truyền thống bắt đầu từ đầu, học mọi thứ thông qua các lần thửu và sai mà không cần kiến thức ban đầu.
- Trong khi đó, RLVR cho LLM bắt đầu từ mô hình pretrain, vốn đã có sẵn kiến thức ngôn ngữ phong phú, điều này giúp mô hình tạo ra các phản hồi hợp lý ngay từ đầu, làm cho quá trình khám phá dễ dàng hơn và Policy có thể nhận được phần thưởng nhanh chóng.
➙ Sẽ được thảo luận ở dưới.
Kiến thức tiền huấn luyện - Con dao hai lưỡi trong không gian hành động rộng lớn.
- Hạn chế từ chính kiến thức tiền huấn luyện : Việc kiến thức tiền huấn luyện làm định hướng việc lẫy mẫu các phản hồi, khiến mô hình có xu hướng bám vào những gì nó đã biết từ trước. Điều này gây khó khăn trong việc khám phá nhưng suy luận vượt ngoài phạm vi kiến thức ban đầu. Ngoài ra, khi trong chính không gian hành động lớn này, nếu phản hồi mà lệch ra khỏi kiến thức trước đó thì hầu như sẽ thành không hợp lệ, hoặc vô nghĩa dẫn đến việc phần thưởng tiêu cực.
- Hành vi của thuật toán policy gradient : Các thuật toán tối ưu thường tìm cách tối đa hoá xác suất của phản hồi nằm trong kiến thức tiền huấn luyện để nhận được phần thưởng tích cực, đồng thời giảm xác suất của các phản hồi ngoài kiến thức đó. ➙ Kết quả : Policy(LLm) được huấn luyện có xu hướng tạo ra các phản hồi đã có sẵn trong kiến thức của nó, giới hạn khả năng suy luận trong phạm vi của mô hình cơ sở.
➙ Các phương pháp distillation từ RLVR được coi là một cách tạm thời để ngăn cản các rào cản trên vì nó cung cấp một khởi đầu tốt hơn
thay vì chỉ đi tối ưu con đường reasoning path.
Kết luận.
Viết đến đây thì cũng khá dài rồi nên sẽ một chút kết luận nhỏ ở đây 🫠.
- Paper khá hay, mọi người nên đọc thử để có nhiều góc nhìn khi tìm hiểu những mô hình mới, cách nó thật sự phát triển, cách nó hoạt động và cải tiến. Đáng lẽ ra sau phần 1 mình định viết 1 bài sâu hơn về policy optimize nhưng mà paper này hay quá nên phải quay xe trước đã😂.
- Việc mô hình cải tiến bằng RL giúp cho việc LLM sampling ra đúng được kết quả ở những lần thử đầu tiên cũng là một việc rất quan trọng, vì nếu như nhìn về góc độ user thì không ai đi resamples vài chục đến vài trăm lần để nhận được kết quả đúng cả 🫠 , nó sẽ có tác dụng ở việc nghiên cứu sự đột phá cho LLM hơn.
- Đồng thời, khi đọc paper thì mình cũng tự nhân ra vài điều, này là ý kiến chủ quan nhé, khi mà sft hoặc thậm chí là RL ý thì rất ít bên làm multi reasoning path cho 1 vấn đề cụ thể, vì đơn giản là nó đắt :v , lâu, tốn effort, bla bla, ... cho nên việc mô hình được train để tìm ra một hoặc một vài (nhỏ) đường suy luận ra phương pháp giải đúng cũng là đúng thôi, nhưng khi train xong thì nó sẽ thành kiến thức nền tảng cho mô hình đó =)) . Nói tóm lại là rất mất công làm dataset cho vấn đề này, và chưa biết được mức độ hiệu quả ra sao. (vấn đề này chưa thử nghiệm nhé, hoàn toàn ý kiến chủ quan)...
Đã khá dài rồi, hẹn mọi người ở một vài khác nha. Upvote đuê