- vừa được xem lúc

Những đột phá mới nhất trong Machine Learning (12/08 - 18/08/2024)

0 0 8

Người đăng: Minh Le

Theo Viblo Asia

Lưu ý: Đây là một bài dịch từ bài viết của DAIR.AI đăng hằng tuần trên LinkedIn. Link của DAIR.A Itrên LinkedIn: https://www.linkedin.com/company/dair-ai/

1. The AI Scientist

Tóm tắt:

  • Giới thiệu một tác nhân AI mới có thể tự động phát triển và viết một bài báo khoa học đầy đủ cấp hội nghị với chi phí dưới 15 đô la.
  • Tác nhân này tự động hóa quá trình khám phá khoa học bằng cách cho phép các mô hình LLMs tiên tiến thực hiện nghiên cứu độc lập và tóm tắt kết quả.
  • Ngoài ra, nó còn sử dụng một người đánh giá tự động để đánh giá các bài báo được tạo ra.
  • Khẳng định đạt được hiệu suất gần như con người trong việc đánh giá điểm số bài báo.
  • Khẳng định có thể tạo ra các bài báo vượt qua ngưỡng chấp nhận tại một hội nghị học máy hàng đầu theo đánh giá của người đánh giá tự động.

(paper | tweet)

2. Grok-2

Tóm tắt:

  • Giới thiệu một mô hình tiên phong mới có khả năng mã hóa, toán học và suy luận mạnh mẽ, bao gồm cả mô hình lớn và nhỏ.
  • Grok-2 vượt trội hơn cả Claude 3.5 Sonnet và GPT-4-Turbo trong LMSYS Chatbot Arena.
  • Khẳng định cải thiện khả năng tuân theo hướng dẫn, lấy thông tin, sử dụng công cụ và tăng tính chính xác.
  • Cạnh tranh với Claude 3.5 Sonnet (phát hành tháng 6) và GPT-4o (phát hành tháng 5) trên MMLU và HumanEval.

(paper | tweet)

3. LongWriter

Tóm tắt:

  • Đề xuất AgentWrite để cho phép các mô hình LLMs hiện có tạo ra đầu ra liên kết vượt quá 20.000 từ.
  • AgentWrite chia nhỏ nhiệm vụ tạo nội dung dài thành các nhiệm vụ con và sử dụng phương pháp "chia để trị" để tạo ra nội dung.
  • Tác nhân chia nhiệm vụ thành nhiều nhiệm vụ viết con và nối kết quả để có đầu ra cuối cùng (ví dụ: kế hoạch + viết).
  • Phương pháp này sau đó được sử dụng để xây dựng bộ dữ liệu SFT được sử dụng để điều chỉnh LLMs tự động tạo ra đầu ra dài hơn một cách liên kết.
  • Một mô hình 9 tỷ tham số, được cải thiện thêm thông qua DPO, đạt hiệu suất hàng đầu trên điểm chuẩn của họ và vượt trội hơn các mô hình độc quyền.

(paper | tweet)

4. EfficientRAG

Tóm tắt:

  • Huấn luyện một mô hình mã hóa tự động để gắn nhãn và gắn thẻ cho các khối văn bản.
  • Lấy các khối liên quan, gắn nhãn chúng là <Kết thúc> ( <Terminate> ) hoặc <Tiếp tục> ( <Continue> ), và gắn nhãn các khối <Tiếp tục> để xử lý liên tục.
  • Sau đó, huấn luyện một mô hình bộ lọc để tạo ra truy vấn tiếp theo dựa trên câu hỏi gốc và các ghi chú trước đó.
  • Quá trình này được thực hiện lặp đi lặp lại cho đến khi tất cả các khối được gắn nhãn là <Kết thúc> hoặc đạt số lần lặp tối đa.
  • Sau khi quá trình trên thu thập đủ thông tin để trả lời câu hỏi ban đầu, bộ tạo cuối cùng (một LLM) tạo ra câu trả lời cuối cùng.

(paper | tweet)

5. RAGChecker

Tóm tắt:

  • Khung đánh giá chi tiết để chẩn đoán các mô-đun lấy thông tin và tạo ra trong RAG.
  • Hiển thị rằng RAGChecker có tương quan tốt hơn với phán đoán của con người.
  • Báo cáo nhiều mẫu thức tiết lộ và sự thỏa hiệp thú vị trong các lựa chọn thiết kế của các kiến trúc RAG.

(paper | tweet)

6. HybirdRAG

Tóm tắt:

  • Kết hợp GraphRAG và VectorRAG dẫn đến hệ thống HybridRAG vượt trội hơn cả hai mô hình riêng lẻ.
  • Được thử nghiệm trên một tập các bản sao cuộc gọi thu nhập tài chính.
  • Kết hợp các lợi thế của cả hai phương pháp cung cấp câu trả lời chính xác hơn cho các truy vấn.

(paper | tweet)

7. rStar

Tóm tắt:

  • Giới thiệu suy luận tự chơi (self-play mutual) để cải thiện khả năng suy luận của các mô hình ngôn ngữ nhỏ mà không cần điều chỉnh hoặc các mô hình ưu việt.
  • MCTS được tăng cường bằng các hành động suy luận giống như con người, thu được từ SLMs, để xây dựng các quỹ đạo suy luận phong phú hơn.
  • Một SLM riêng biệt cung cấp phản hồi không được giám sát về các quỹ đạo và SLM mục tiêu chọn quỹ đạo suy luận cuối cùng là câu trả lời.
  • rStar tăng độ chính xác GSM8K từ 12,51% lên 63,91% cho LLaMA2-7B và liên tục cải thiện độ chính xác của các SLM khác.

(paper | tweet)

8. Scaling LLM Test-Time Compute Optimally

Tóm tắt:

  • Nghiên cứu về hành vi mở rộng của việc tính toán thời gian chạy trong LLMs.
  • Phân tích cách một LLM có thể được cải thiện bao nhiêu với một lượng tính toán thời gian chạy cố định.
  • Tìm thấy hiệu quả của các phương pháp mở rộng khác nhau thay đổi theo độ khó của lời nhắc.
  • Đề xuất chiến lược tối ưu hóa tính toán thời gian chạy thích ứng có thể cải thiện hiệu quả hơn 4 lần so với điểm chuẩn tốt nhất.
  • Báo cáo rằng trong đánh giá FLOPs, việc mở rộng tính toán thời gian chạy tối ưu có thể vượt trội hơn một mô hình lớn hơn 14 lần.

(paper | tweet)

9. MedGraphRAG

Tóm tắt:

  • Khung dựa trên đồ thị cho lĩnh vực y tế tập trung vào việc cải thiện LLMs và tạo ra kết quả dựa trên bằng chứng.
  • Sử dụng phương pháp chia tài liệu tĩnh-ngữ nghĩa lai để cải thiện việc thu thập ngữ cảnh.
  • Các thực thể và kiến thức y tế được biểu diễn thông qua đồ thị dẫn đến đồ thị toàn cầu liên kết.
  • Phương pháp này cải thiện độ chính xác và vượt trội hơn các mô hình tiên tiến trên nhiều điểm chuẩn Q&A y tế.

(paper | tweet)

10. Survey of NL2QL

Tóm tắt:

  • Tổng quan toàn diện về các kỹ thuật NL2QL được hỗ trợ bởi LLMs.
  • Bao gồm các mô hình, thu thập dữ liệu, phương pháp đánh giá và phân tích lỗi.

(paper | tweet)

Bình luận

Bài viết tương tự

- vừa được xem lúc

Các thuật toán cơ bản trong AI - Phân biệt Best First Search và Uniform Cost Search (UCS)

Nếu bạn từng đọc các thuật toán trong AI (Artificial Intelligence - Trí tuệ nhân tạo), rất có thể bạn từng nghe qua về các thuật toán tìm kiếm cơ bản: UCS (thuộc chiến lược tìm kiếm mù) và Best First Search (thuộc chiến lược tìm kiếm kinh nghiệm). Khác nhau rõ từ khâu phân loại rồi, thế nhưng hai th

0 0 169

- vừa được xem lúc

Con đường AI của tôi

Gần đây, khá nhiều bạn nhắn tin hỏi mình những câu hỏi đại loại như: có nên học AI, bắt đầu học AI như nào, làm sao tự học cho đúng, cho nhanh, học không bị nản, lộ trình học AI như nào... Sau nhiều lần trả lời, mình nghĩ rằng nên viết hẳn một bài để trả lời chi tiết hơn, cũng như để các bạn sau này

0 0 157

- vừa được xem lúc

[ChatterBot] Thư viện chatbot hay ho dành cho Python| phần 3

Trong bài trước mình đã trình bày về Training data cho chatbot và tiền xử lý dữ liệu. Trong phần này sẽ trình bày với các bạn về logic adapter.

0 0 62

- vừa được xem lúc

[Deep Learning] Kỹ thuật Dropout (Bỏ học) trong Deep Learning

. Trong bài viết này, mình xin phép giới thiệu về Dropout (Bỏ học) trong mạng Neural, sau đó là mình sẽ có 1 số đoạn code để xem Dropout ảnh hưởng thế nào đến hiệu suất của mạng Neural. 1.1. Dropout trong mạng Neural là gì.

0 0 63

- vừa được xem lúc

Kỹ thuật Dropout (Bỏ học) trong Deep Learning

Trong bài viết này, mình xin phép giới thiệu về Dropout (Bỏ học) trong mạng Neural, sau đó là mình sẽ có 1 số đoạn code để xem Dropout ảnh hưởng thế nào đến hiệu suất của mạng Neural. 1.

0 1 80

- vừa được xem lúc

Blockchain dưới con mắt làng Vũ Đại 4.0

Mở bài. Hey nhô các bạn, lại là mình đây .

0 0 50