Tag Reinforcement learning

Tìm kiếm bài viết trong Tag Reinforcement learning

24/05/2025 - vừa được xem lúc 11/09/2025

[Papers Notes] RL IN NAME ONLY? ANALYZING THE STRUCTURAL ASSUMPTIONS IN RL POST-TRAINING FOR LLMS

#MayFest2025

Trong quá trình tìm hiểu về việc sử dụng RL trong quá trình post-training trong LLM, có khá nhiều thắc mắc cũng như vấn đề mà mình suy nghĩ đến. Và tình cờ mình tìm được paper khá đúng với những gì mì

0 0 14

17/05/2025 - vừa được xem lúc 14/09/2025

[Advanced-LLM] Reasoning LLM và Những Điều Thú Vị Mà Có Thể Bạn Đã Biết Phần 2.

#Reinforcement learning

Nếu bạn thấy hay, hãy upvote và bookmark cho mình nhé, chỉ đơn giản là động lực nhỏ để mình ngồi đọc và chia sẻ cùng mọi người những điều hay ho khi ngồi nghịch những tech mới thôi kk. Đây là một pape

0 0 18

23/03/2025 - vừa được xem lúc 11/09/2025

RLHF - Cơ bản về Reinforcement Learning from Human Feedback

#Reinforcement learning

#LLM

#NLP (Natural Language Processing)

Giới thiệu. Trong bài viết này, chúng ta sẽ tìm hiểu về “Learning from Human Feedback”.

0 0 16

09/08/2024 - vừa được xem lúc 16/09/2025

Nhập môn Reinforcement Learning: Tabular Methods.

#Reinforcement learning

#Machine Leaning

#mathematics

Trong phần này, chúng ta sẽ đi vào ý tưởng thuần của RL trong trạng thái cơ bản nhất, khi mà state và action space đủ để các values có thể lưu trữ vào trong array hoặc bảng. Trong các dạng như này, th

0 0 22

31/07/2024 - vừa được xem lúc 14/09/2025

Nhập môn Reinforcement Learning: Ứng dụng ,những điều cần biết và những lý thuyết cơ bản.

#AI

#deeplearning

#Reinforcement learning

#Machine Leaning

#mathematics

Đôi nét về tác giả. Các kiến thức cần có trước khi đọc bài viết. . Kiến thức cơ bản về Machine Learning.

0 0 24

14/12/2023 - vừa được xem lúc 12/09/2025

[ChatGPT series 4] RLHF & DPO: Kỹ thuật mới đơn giản hơn, tăng cường khả năng Fine-tuning cho Large language models

#Reinforcement learning

#chatgpt

#large language model

#Direct Preference Optimization

#RLHF

RLHF là gì. Về cốt lõi, RLHF là một mô hình học máy (machine learning) kết hợp với các yếu tố học tăng cường (reinforcement learning) và học có giám sát (supervised learning) để cho phép các hệ thống

0 0 66

13/12/2023 - vừa được xem lúc 11/09/2025

RLHF & DPO: Kỹ thuật mới đơn giản hơn, tăng cường khả năng Fine-tuning cho Large language models

#Reinforcement learning

#chatgpt

#large language model

#Direct Preference Optimization

#RLHF

0 0 41

17/04/2023 - vừa được xem lúc 14/09/2025

ChatGPT: bản chất ChatGPT hoạt động như thế nào?

#NLP

#Reinforcement learning

#Ai Conversation

#chatgpt

#PPO

ChatGPT: bản chất ChatGPT hoạt động như thế nào. ChatGPT là một Large Language Model (LLM) mới nhất của OpenAI và cho thấy được sự cải thiện đáng kể với mô hình tiền.

0 0 40

17/02/2023 - vừa được xem lúc 11/09/2025

RLHF và cách ChatGPT hoạt động

#Deep Learning

#Reinforcement learning

#KhaiButDauXuan

#chatgpt

Cũng là một chủ đề liên quan đến ChatGPT, nhưng lần này lại thuần về công nghệ thôi. Một yêu cầu nhỏ đó là mọi người nên đọc và tìm hiểu trước về Reinforcement Learning trước khi tìm hiều sâu về kĩ th

0 0 44

01/06/2022 - vừa được xem lúc 13 giờ trước

Hello world với Reinforcement Learning

#Reinforcement learning

#MayFest2022

#Reconnection

Xin chào các bạn. Tiếp nối series về Reinforcement Learning (RL), hôm nay mình xin giới thiệu một ví dụ đơn giản có thể coi như là "Hello world" của RL.

0 0 62

31/05/2022 - vừa được xem lúc 11/09/2025

Đôi điều cơ bản về học tăng cường

#Reinforcement learning

#MayFest2022

#Reconnection

1. Giới thiệu.

0 0 49

16/12/2021 - vừa được xem lúc 11/09/2025

Giới thiệu về học tăng cường và ứng dụng Deep Q-Learning chơi game CartPole

Trending

#Trending

#Machine Learning

#Reinforcement learning

Giới thiệu. Học tăng cường (Reinforcement Learning-RL) là một trong ba kiểu học máy chính bên cạnh học giám sát (Supervised Learning) và học không giám sát (Unsupervised Learning).

0 0 88