Lưu ý: Đây là một bài dịch từ bài viết của DAIR.AI đăng hằng tuần trên LinkedIn. Link của DAIR.A Itrên LinkedIn: https://www.linkedin.com/company/dair-ai/
1. The AI Scientist
Tóm tắt:
- Giới thiệu một tác nhân AI mới có thể tự động phát triển và viết một bài báo khoa học đầy đủ cấp hội nghị với chi phí dưới 15 đô la.
- Tác nhân này tự động hóa quá trình khám phá khoa học bằng cách cho phép các mô hình LLMs tiên tiến thực hiện nghiên cứu độc lập và tóm tắt kết quả.
- Ngoài ra, nó còn sử dụng một người đánh giá tự động để đánh giá các bài báo được tạo ra.
- Khẳng định đạt được hiệu suất gần như con người trong việc đánh giá điểm số bài báo.
- Khẳng định có thể tạo ra các bài báo vượt qua ngưỡng chấp nhận tại một hội nghị học máy hàng đầu theo đánh giá của người đánh giá tự động.
2. Grok-2
Tóm tắt:
- Giới thiệu một mô hình tiên phong mới có khả năng mã hóa, toán học và suy luận mạnh mẽ, bao gồm cả mô hình lớn và nhỏ.
- Grok-2 vượt trội hơn cả Claude 3.5 Sonnet và GPT-4-Turbo trong LMSYS Chatbot Arena.
- Khẳng định cải thiện khả năng tuân theo hướng dẫn, lấy thông tin, sử dụng công cụ và tăng tính chính xác.
- Cạnh tranh với Claude 3.5 Sonnet (phát hành tháng 6) và GPT-4o (phát hành tháng 5) trên MMLU và HumanEval.
3. LongWriter
Tóm tắt:
- Đề xuất AgentWrite để cho phép các mô hình LLMs hiện có tạo ra đầu ra liên kết vượt quá 20.000 từ.
- AgentWrite chia nhỏ nhiệm vụ tạo nội dung dài thành các nhiệm vụ con và sử dụng phương pháp "chia để trị" để tạo ra nội dung.
- Tác nhân chia nhiệm vụ thành nhiều nhiệm vụ viết con và nối kết quả để có đầu ra cuối cùng (ví dụ: kế hoạch + viết).
- Phương pháp này sau đó được sử dụng để xây dựng bộ dữ liệu SFT được sử dụng để điều chỉnh LLMs tự động tạo ra đầu ra dài hơn một cách liên kết.
- Một mô hình 9 tỷ tham số, được cải thiện thêm thông qua DPO, đạt hiệu suất hàng đầu trên điểm chuẩn của họ và vượt trội hơn các mô hình độc quyền.
4. EfficientRAG
Tóm tắt:
- Huấn luyện một mô hình mã hóa tự động để gắn nhãn và gắn thẻ cho các khối văn bản.
- Lấy các khối liên quan, gắn nhãn chúng là <Kết thúc> ( <Terminate> ) hoặc <Tiếp tục> ( <Continue> ), và gắn nhãn các khối <Tiếp tục> để xử lý liên tục.
- Sau đó, huấn luyện một mô hình bộ lọc để tạo ra truy vấn tiếp theo dựa trên câu hỏi gốc và các ghi chú trước đó.
- Quá trình này được thực hiện lặp đi lặp lại cho đến khi tất cả các khối được gắn nhãn là <Kết thúc> hoặc đạt số lần lặp tối đa.
- Sau khi quá trình trên thu thập đủ thông tin để trả lời câu hỏi ban đầu, bộ tạo cuối cùng (một LLM) tạo ra câu trả lời cuối cùng.
5. RAGChecker
Tóm tắt:
- Khung đánh giá chi tiết để chẩn đoán các mô-đun lấy thông tin và tạo ra trong RAG.
- Hiển thị rằng RAGChecker có tương quan tốt hơn với phán đoán của con người.
- Báo cáo nhiều mẫu thức tiết lộ và sự thỏa hiệp thú vị trong các lựa chọn thiết kế của các kiến trúc RAG.
6. HybirdRAG
Tóm tắt:
- Kết hợp GraphRAG và VectorRAG dẫn đến hệ thống HybridRAG vượt trội hơn cả hai mô hình riêng lẻ.
- Được thử nghiệm trên một tập các bản sao cuộc gọi thu nhập tài chính.
- Kết hợp các lợi thế của cả hai phương pháp cung cấp câu trả lời chính xác hơn cho các truy vấn.
7. rStar
Tóm tắt:
- Giới thiệu suy luận tự chơi (self-play mutual) để cải thiện khả năng suy luận của các mô hình ngôn ngữ nhỏ mà không cần điều chỉnh hoặc các mô hình ưu việt.
- MCTS được tăng cường bằng các hành động suy luận giống như con người, thu được từ SLMs, để xây dựng các quỹ đạo suy luận phong phú hơn.
- Một SLM riêng biệt cung cấp phản hồi không được giám sát về các quỹ đạo và SLM mục tiêu chọn quỹ đạo suy luận cuối cùng là câu trả lời.
- rStar tăng độ chính xác GSM8K từ 12,51% lên 63,91% cho LLaMA2-7B và liên tục cải thiện độ chính xác của các SLM khác.
8. Scaling LLM Test-Time Compute Optimally
Tóm tắt:
- Nghiên cứu về hành vi mở rộng của việc tính toán thời gian chạy trong LLMs.
- Phân tích cách một LLM có thể được cải thiện bao nhiêu với một lượng tính toán thời gian chạy cố định.
- Tìm thấy hiệu quả của các phương pháp mở rộng khác nhau thay đổi theo độ khó của lời nhắc.
- Đề xuất chiến lược tối ưu hóa tính toán thời gian chạy thích ứng có thể cải thiện hiệu quả hơn 4 lần so với điểm chuẩn tốt nhất.
- Báo cáo rằng trong đánh giá FLOPs, việc mở rộng tính toán thời gian chạy tối ưu có thể vượt trội hơn một mô hình lớn hơn 14 lần.
9. MedGraphRAG
Tóm tắt:
- Khung dựa trên đồ thị cho lĩnh vực y tế tập trung vào việc cải thiện LLMs và tạo ra kết quả dựa trên bằng chứng.
- Sử dụng phương pháp chia tài liệu tĩnh-ngữ nghĩa lai để cải thiện việc thu thập ngữ cảnh.
- Các thực thể và kiến thức y tế được biểu diễn thông qua đồ thị dẫn đến đồ thị toàn cầu liên kết.
- Phương pháp này cải thiện độ chính xác và vượt trội hơn các mô hình tiên tiến trên nhiều điểm chuẩn Q&A y tế.
10. Survey of NL2QL
Tóm tắt:
- Tổng quan toàn diện về các kỹ thuật NL2QL được hỗ trợ bởi LLMs.
- Bao gồm các mô hình, thu thập dữ liệu, phương pháp đánh giá và phân tích lỗi.