- vừa được xem lúc

Những bài báo về ML đáng chú ý từ ngày 22 - 28/07/2024

0 0 5

Người đăng: Minh Le

Theo Viblo Asia

Lưu ý: Đây là một bài dịch từ bài viết của DAIR.AI đăng hằng tuần trên LinkedIn. Link của DAIR.A Itrên LinkedIn: https://www.linkedin.com/company/dair-ai/

1. Llama 3.1:

  • Là một bộ sưu tập các mô hình ngôn ngữ lớn (LLM) bao gồm các mô hình 8B, 70B và 405B tham số.
  • Hỗ trợ tám ngôn ngữ và mở rộng cửa sổ ngữ cảnh lên 128K mã.
  • Hoạt động cạnh tranh và trong một số trường hợp vượt trội so với các mô hình tiên tiến trong các khả năng như kiến thức chung, lý luận toán học và sử dụng công cụ.

(Bài báo | Tweet)

2. AlphaProof & Alpha Geometry 2:

  • Giải quyết được 4 trong số 6 bài toán trong kỳ thi IMO năm nay, tương đương với điểm huy chương bạc.
  • AlphaProof bao gồm một mô hình Gemini tự động chuyển đổi các câu lệnh bài toán ngôn ngữ tự nhiên thành các câu lệnh chính thức (tức là mạng lưới chính thức hóa).
  • Sau đó, một mạng lưới giải quyết tìm kiếm bằng chứng/bác bỏ và tự đào tạo dần dần bằng cách sử dụng AlphaZero để học cách giải quyết các bài toán phức tạp hơn.
  • AlphaGeometry 2, một hệ thống lai thần kinh biểu tượng, đã chứng minh được bài toán hình học.
  • Dựa trên mô hình Gemini và được đào tạo từ đầu trên một lượng lớn dữ liệu tổng hợp.

(Bài báo | Tweet)

3. RAG vs. Long-Context LLMs

  • So sánh RAG và LLM ngữ cảnh dài và nhận thấy rằng LLM ngữ cảnh dài vượt trội hơn RAG về hiệu suất trung bình trong khi RAG ít tốn kém hơn đáng kể.
  • Đề xuất Self-Route, tận dụng khả năng tự phản ánh để định tuyến các truy vấn đến RAG hoặc LC.
  • Nhận định rằng Self-Route giảm đáng kể chi phí tính toán trong khi duy trì hiệu suất tương đương với LC.

(Bài báo | Tweet)

4. OpenDevin:

  • Trình bày một nền tảng để phát triển các tác nhân đa năng tương tác với thế giới thông qua phần mềm.
  • Các tính năng bao gồm:
    • Cơ chế tương tác giữa các agents, giao diện và môi trường.
    • Môi trường bao gồm hệ điều hành sandboxed và trình duyệt web có sẵn cho các tác nhân.
    • Giao diện để tạo và thực thi mã.
    • Hỗ trợ đa tác nhân (multi-agents).
    • Khung đánh giá.

(Bài báo | Tweet)

5. LazyLLM:

  • Giới thiệu một phương pháp cắt tỉa (pruning method) mã động để suy luận LLM ngữ cảnh dài hiệu quả.
  • Có thể tăng tốc giai đoạn điền trước của mô hình Llama 2 7B lên 2,34 lần và duy trì độ chính xác cao.
  • Tính toán có chọn lọc cho các mã quan trọng đối với dự đoán mã tiếp theo ở cả giai đoạn điền trước và giải mã.
  • Cho phép các mô hình ngôn ngữ động lựa chọn các tập hợp con mã khác nhau từ ngữ cảnh trong các bước tạo khác nhau, mặc dù chúng có thể bị cắt tỉa trong các bước trước đó.

(Bài báo | Tweet)

6. Teaching LLM Agents to Self-Improve

  • Khẳng định rằng có thể tinh chỉnh LLM lặp đi lặp lại với khả năng cải thiện phản hồi của chính nó qua nhiều lượt với phản hồi môi trường bổ sung.
  • LLM học cách phát hiện và sửa chữa các lỗi trước đó của mình trong các lần lặp sau.
  • Cải thiện khả năng tự cải thiện của các mô hình 7B trong các tác vụ lý luận, đạt được sự cải thiện qua các lượt chưa từng thấy ở các mô hình độc quyền (proprietary models).

(Bài báo | Tweet)

7. Text-to-SQL Survey

  • Cung cấp một khảo sát về việc sử dụng LLM cho các tác vụ Text-to-SQL, bao gồm các kỹ thuật điều chỉnh prompt (prompt engineering techniques), phương pháp tinh chỉnh, điểm chuẩn và hơn thế nữa.

(Bài báo | Tweet)

8. MINT-1T

  • Nguồn mở một bộ dữ liệu kết hợp đa phương thức quy mô lớn gồm 1 nghìn tỷ mã có 3,4 tỷ hình ảnh.
  • Nó cũng bao gồm các nguồn mới như PDF và các bài báo ArXiv.

(Bài báo | Tweet)

9. Model Collapse on Synthetic Data

  • Nghiên cứu tác động của việc đào tạo mô hình trên dữ liệu được tạo ra một cách đệ quy.
  • Phát hiện rằng việc đào tạo trên nội dung do mô hình tạo ra có thể gây ra các lỗi không thể đảo ngược, nơi phân phối nội dung ban đầu biến mất.
  • Cho thấy rằng hiệu ứng, được gọi là sụp đổ mô hình, xảy ra ở LLM, VAE và GMM.
  • Mặc dù được thử nghiệm trên các mô hình quy mô nhỏ hơn (~100M tham số), các tác giả cho rằng hiệu ứng này rất có khả năng chuyển sang các mô hình lớn hơn theo thời gian.

(Bài báo | Tweet)

10. Mitigating Hallucination via Generation Constraint

  • Đề xuất một cách tiếp cận không huấn luyện (training-free) để giảm thiểu ảo giác (hallucination) trong LLM.
  • Họ đã mở rộng vectơ đọc (the readout vector) ra hạn chế việc tạo ra trong bộ giải mã LLM được tăng cường bộ nhớ.
  • Các tác phẩm gần đây khẳng định rằng LLM với các cơ chế bộ nhớ rõ ràng có thể giúp giảm thiểu ảo giác (hallucination).
  • Công trình này sử dụng LLM được tăng cường bộ nhớ và hạn chế việc tạo ra trong bộ giải mã bằng cách áp dụng các bộ nhớ nhẹ để giảm thiểu ảo giác.

(Bài báo | Tweet)

Bình luận

Bài viết tương tự

- vừa được xem lúc

Các thuật toán cơ bản trong AI - Phân biệt Best First Search và Uniform Cost Search (UCS)

Nếu bạn từng đọc các thuật toán trong AI (Artificial Intelligence - Trí tuệ nhân tạo), rất có thể bạn từng nghe qua về các thuật toán tìm kiếm cơ bản: UCS (thuộc chiến lược tìm kiếm mù) và Best First Search (thuộc chiến lược tìm kiếm kinh nghiệm). Khác nhau rõ từ khâu phân loại rồi, thế nhưng hai th

0 0 169

- vừa được xem lúc

Con đường AI của tôi

Gần đây, khá nhiều bạn nhắn tin hỏi mình những câu hỏi đại loại như: có nên học AI, bắt đầu học AI như nào, làm sao tự học cho đúng, cho nhanh, học không bị nản, lộ trình học AI như nào... Sau nhiều lần trả lời, mình nghĩ rằng nên viết hẳn một bài để trả lời chi tiết hơn, cũng như để các bạn sau này

0 0 157

- vừa được xem lúc

[ChatterBot] Thư viện chatbot hay ho dành cho Python| phần 3

Trong bài trước mình đã trình bày về Training data cho chatbot và tiền xử lý dữ liệu. Trong phần này sẽ trình bày với các bạn về logic adapter.

0 0 62

- vừa được xem lúc

[Deep Learning] Kỹ thuật Dropout (Bỏ học) trong Deep Learning

. Trong bài viết này, mình xin phép giới thiệu về Dropout (Bỏ học) trong mạng Neural, sau đó là mình sẽ có 1 số đoạn code để xem Dropout ảnh hưởng thế nào đến hiệu suất của mạng Neural. 1.1. Dropout trong mạng Neural là gì.

0 0 63

- vừa được xem lúc

Kỹ thuật Dropout (Bỏ học) trong Deep Learning

Trong bài viết này, mình xin phép giới thiệu về Dropout (Bỏ học) trong mạng Neural, sau đó là mình sẽ có 1 số đoạn code để xem Dropout ảnh hưởng thế nào đến hiệu suất của mạng Neural. 1.

0 1 80

- vừa được xem lúc

Blockchain dưới con mắt làng Vũ Đại 4.0

Mở bài. Hey nhô các bạn, lại là mình đây .

0 0 50