Tag Direct Preference Optimization

Tìm kiếm bài viết trong Tag Direct Preference Optimization

14/12/2023 - vừa được xem lúc 12/09/2025

[ChatGPT series 4] RLHF & DPO: Kỹ thuật mới đơn giản hơn, tăng cường khả năng Fine-tuning cho Large language models

RLHF là gì. Về cốt lõi, RLHF là một mô hình học máy (machine learning) kết hợp với các yếu tố học tăng cường (reinforcement learning) và học có giám sát (supervised learning) để cho phép các hệ thống

0 0 66

13/12/2023 - vừa được xem lúc 11/09/2025

RLHF & DPO: Kỹ thuật mới đơn giản hơn, tăng cường khả năng Fine-tuning cho Large language models

#Reinforcement learning

#chatgpt

#large language model

#Direct Preference Optimization

#RLHF

0 0 41