Lưu ý: Đây là một bài dịch từ bài viết của DAIR.AI đăng hằng tuần trên LinkedIn. Link của DAIR.A Itrên LinkedIn: https://www.linkedin.com/company/dair-ai/
1. SAM 2
Tóm tắt:
- Một mô hình thống nhất mở cho phân đoạn đối tượng trong hình ảnh và video theo thời gian thực, có thể được áp dụng cho nội dung trực quan chưa từng thấy mà không cần thích ứng tùy chỉnh.
- Để cho phép dự đoán mặt nạ chính xác trong video, một cơ chế bộ nhớ được giới thiệu để lưu trữ thông tin về đối tượng và các tương tác trước đó.
- Mô-đun bộ nhớ cũng cho phép xử lý video dài tùy ý theo thời gian thực.
- SAM2 vượt trội hơn đáng kể so với các phương pháp trước đây về phân đoạn video tương tác trên 17 bộ dữ liệu video không được huấn luyện trước, trong khi chỉ cần ít tương tác của con người hơn ba lần.
2. Structured Generation Limits Reasoning
Tóm tắt:
- Nghiên cứu xem việc tạo cấu trúc có thể ảnh hưởng đến khả năng suy luận và khả năng hiểu biết về lĩnh vực của LLM.
- Quan sát thấy có sự suy giảm đáng kể về khả năng suy luận của LLM khi áp dụng các hạn chế định dạng so với các phản hồi không có cấu trúc.
- Tác dụng suy giảm này được khuếch đại thêm khi áp dụng các ràng buộc định dạng nghiêm ngặt hơn cho các tác vụ suy luận.
3. From LLMs to LLM-based Agents for Software Engineering
Tóm tắt:
- Một bài báo khảo sát về các thực tiễn hiện tại và các giải pháp cho các tác nhân dựa trên LLM cho kỹ thuật phần mềm.
- Bao gồm các chủ đề quan trọng như kỹ thuật yêu cầu, tạo mã, tạo thử nghiệm và ra quyết định tự động.
- Nó cũng bao gồm các điểm chuẩn, các chỉ số và các mô hình được sử dụng trong các ứng dụng kỹ thuật phần mềm khác nhau.
4. Transformer Explainer
Tóm tắt:
- Giới thiệu một công cụ tương tác mã nguồn mở để tìm hiểu cách hoạt động của mô hình Transformer.
- Nó chạy một phiên bản GPT-2 cục bộ trong trình duyệt của người dùng và cho phép thử nghiệm với đầu vào của riêng bạn.
5. Enhancing LLMs for RAG
Tóm tắt:
- Giới thiệu RAGFoundry, một khung công cụ mã nguồn mở cho các LLM được tăng cường cho các trường hợp sử dụng RAG.
- Nó hỗ trợ tạo dữ liệu, huấn luyện, suy luận và đánh giá.
- Một ứng dụng hữu ích là tạo các bộ dữ liệu được tăng cường dữ liệu để điều chỉnh và đánh giá LLM trong các cài đặt RAG.
6. Synthesizing Text-to-SQL Data
Tóm tắt:
- Đề xuất dữ liệu tổng hợp để xây dựng mô hình text-to-SQL đặc biệt được gọi là SENSE.
- Dữ liệu tổng hợp từ các mô hình mạnh mẽ tăng cường sự đa dạng dữ liệu trong khi dữ liệu sai có giá trị từ các mô hình yếu hơn kết hợp với một trình thực thi để học từ phản hồi thực thi.
- SENSE đạt kết quả tốt nhất trong ngành trên các điểm chuẩn SPIDER và BIRD, điều này giúp thu hẹp khoảng cách hiệu suất giữa các mô hình mã nguồn mở và các phương pháp sử dụng mô hình mã nguồn đóng.
7. Conversational Prompt Engineering
Tóm tắt:
- Đề xuất một phương pháp để giúp người dùng tạo các nhắc nhở cá nhân bằng cách diễn đạt đầu ra được ưu tiên thông qua các tương tác.
- Bao gồm hai giai đoạn: 1) một hướng dẫn ban đầu được định hình bởi mô hình dựa trên dữ liệu không được gắn nhãn do người dùng cung cấp, và 2) mô hình chia sẻ đầu ra và người dùng cung cấp phản hồi với các tinh chỉnh trên đầu ra và hướng dẫn.
- Quá trình lặp lại này dẫn đến một nhắc nhở ít lần bắn cá nhân hóa hoạt động tốt hơn và tối ưu hơn trên nhiệm vụ mong muốn.
8. Self-Taught Evaluators
Tóm tắt:
- Một phương pháp để cải thiện các đánh giá dựa trên mô hình bằng cách sử dụng dữ liệu huấn luyện tổng hợp.
- Đầu tiên, nó tạo ra các đầu ra tương phản (các phản hồi mô hình tốt và xấu) và huấn luyện LLM-as-a-Judge để tạo ra các dấu vết suy luận và các phán quyết cuối cùng.
- Sơ đồ tự cải thiện lặp lại quá trình huấn luyện theo cách lặp lại bằng cách sử dụng các dự đoán được cải thiện của nó.
9. RAGEval
Tóm tắt:
- Đề xuất một khung đơn giản để tự động tạo bộ dữ liệu đánh giá để đánh giá việc sử dụng kiến thức của LLM khác nhau trong các kịch bản khác nhau.
- Nó xác định một lược đồ từ các tài liệu hạt giống và sau đó tạo ra các tài liệu đa dạng dẫn đến các cặp câu hỏi-trả lời.
10. Survey of Mamba
Tóm tắt:
- Cung cấp một đánh giá hệ thống về các mô hình dựa trên Mamba trên các miền và nhiệm vụ.
- Tập trung vào các tiến bộ của các mô hình dựa trên Mamba, các kỹ thuật để thích ứng Mamba với dữ liệu đa dạng, các ứng dụng mà Mamba nổi trội và các hướng nghiên cứu hứa hẹn.