I. Giới thiệu
Các mô hình đa phương thức tiên tiến nhất hiện nay, có khả năng xử lý cả hình ảnh và văn bản, đã thể hiện những khả năng ấn tượng, chẳng hạn như tạo ra các mô tả hình ảnh chi tiết và trả lời chính xác các câu hỏi trực quan phức tạp. Các mô hình thị giác-ngôn ngữ (VLMs) này rất quan trọng cho sự tiến bộ của AI. Tuy nhiên, hầu hết các VLM có hiệu suất cao nhất vẫn là độc quyền, nghĩa là không có trọng số mô hình, dữ liệu hoặc mã nguồn nào được công khai. Sự thiếu minh bạch này cản trở khả năng của cộng đồng khoa học trong việc hiểu cách xây dựng các VLM hiệu suất cao từ đầu. Mặc dù có một số mô hình trọng số mở, chúng thường dựa nhiều vào dữ liệu tổng hợp được tạo ra bởi các VLM độc quyền, điều này có nghĩa là chúng thực chất là các phiên bản chắt lọc của các mô hình kín đó. Điều này tạo ra sự phụ thuộc và hạn chế kiến thức nền tảng về cách tạo ra các VLM hiệu suất cao một cách độc lập.
Để giải quyết những vấn đề này, nghiên cứu này giới thiệu Molmo, một họ VLM mở hiện đại. Đổi mới chính của Molmo là bộ dữ liệu chú thích hình ảnh chất lượng cao mới có tên là PixMo, được thu thập hoàn toàn từ những người chú thích là con người bằng cách sử dụng mô tả dựa trên giọng nói. Phương pháp thu thập dữ liệu này tránh được các vấn đề về tốc độ của người chú thích hoặc xu hướng sao chép và dán từ các VLM hiện có. Bên cạnh dữ liệu chú thích, một tập hợp dữ liệu đa dạng để tinh chỉnh đã được tạo ra, bao gồm dữ liệu hỏi đáp trong thực tế và dữ liệu trỏ 2D sáng tạo. Sự thành công của Molmo dựa trên những lựa chọn cẩn thận về chi tiết kiến trúc mô hình, quy trình huấn luyện được điều chỉnh tốt và chất lượng cao của bộ dữ liệu PixMo mới.
Mô hình 72B tốt nhất trong họ Molmo không chỉ vượt trội so với các mô hình khác trong cùng loại mô hình có trọng số và dữ liệu mở mà còn so sánh tốt với các hệ thống độc quyền như GPT-4o, Claude 3.5 và Gemini 1.5 trên cả điểm chuẩn học thuật và đánh giá của con người. Tất cả các trọng số mô hình, dữ liệu chú thích và tinh chỉnh, và mã nguồn sẽ được phát hành trong tương lai gần để thúc đẩy nghiên cứu và phát triển hơn nữa.
II. Tổng quan vấn đề
Nhiều nỗ lực nghiên cứu đã hướng tới việc tái tạo khả năng của các mô hình thị giác-ngôn ngữ (VLMs) độc quyền trong các mô hình mở, nhằm thúc đẩy khám phá khoa học. Các công trình ban đầu, như LLaVA, đã tạo ra các trọng số và dữ liệu huấn luyện hoàn toàn mở. Tuy nhiên, những mô hình ban đầu này hiện đang tụt hậu đáng kể so với các mô hình tiên tiến nhất. Các mô hình trọng số mở mạnh mẽ gần đây đã có xu hướng sử dụng dữ liệu ít mở hơn. Điều này có nghĩa là dữ liệu huấn luyện hoặc là độc quyền, hoặc khi được phát hành, thì lại phụ thuộc nhiều vào dữ liệu tổng hợp được tạo ra bởi các hệ thống độc quyền. Ví dụ, một số mô hình được huấn luyện trên các bộ dữ liệu như ShareGPT4V, sử dụng GPT-4V để tạo ra các chú thích hình ảnh chi tiết.
Sự phụ thuộc vào dữ liệu tổng hợp đồng nghĩa với việc các VLM kết quả thực chất là các phiên bản chắt lọc của các VLM độc quyền. Cách tiếp cận này hạn chế kiến thức cơ bản của cộng đồng khoa học về cách xây dựng các VLM hiệu suất cao từ đầu. Cộng đồng vẫn còn thiếu thông tin quan trọng về việc tạo ra các VLM mà không phụ thuộc vào các hệ thống độc quyền.
Họ mô hình Molmo hướng đến việc giải quyết những thiếu sót này bằng cách cung cấp các VLM nguồn mở với trọng số mô hình và dữ liệu huấn luyện thị giác-ngôn ngữ được phát hành mà không cần dựa vào dữ liệu tổng hợp từ các VLM độc quyền. Điều này đạt được thông qua một quy trình huấn luyện đơn giản, sử dụng một bộ mã hóa thị giác và mô hình ngôn ngữ được huấn luyện trước độc lập, và được huấn luyện chung để tạo ra chú thích từ một bộ dữ liệu mới thu thập gồm các mô tả hình ảnh chi tiết, chất lượng cao. Cách tiếp cận này đối lập với các VLM mở đương đại khác sử dụng nhiều giai đoạn huấn luyện trước và dữ liệu văn bản-hình ảnh ghép nối yếu trên quy mô lớn. Thành công của Molmo dựa trên những lựa chọn cẩn thận về kiến trúc mô hình, một quy trình huấn luyện được điều chỉnh tốt và quan trọng nhất là chất lượng cao của các bộ dữ liệu mới thu thập, được đặt tên là PixMo.
III. Model Architecture
Kiến trúc của Molmo tuân theo một thiết kế đơn giản và tiêu chuẩn, kết hợp một mô hình ngôn ngữ với một bộ mã hóa thị giác. Thiết kế này bao gồm bốn thành phần chính: ● Một bộ tiền xử lý chuyển đổi hình ảnh đầu vào thành một tập hợp các hình ảnh đa tỷ lệ, đa cắt. ● Một bộ mã hóa hình ảnh ViT ánh xạ độc lập từng hình ảnh này thành một tập hợp các mã thông báo thị giác. Tất cả các mô hình Molmo đã phát hành đều sử dụng mô hình CLIP ViT-L/14 336px của OpenAI cho mục đích này, vì nó đã được chứng minh là mang lại kết quả tốt một cách nhất quán. Mặc dù mô hình CLIP này sử dụng dữ liệu đóng, nhưng nó có thể được tái tạo từ đầu. ● Một bộ kết nối chiếu các mã thông báo thị giác vào chiều đầu vào của mô hình ngôn ngữ bằng cách sử dụng MLP và sau đó gộp các mã thông báo thị giác để giảm số lượng của chúng. ● Một LLM Transformer chỉ có bộ giải mã. Họ mô hình Molmo sử dụng nhiều LLM khác nhau ở các quy mô và mức độ mở khác nhau. Chúng bao gồm OLMo-7B-1024 hoàn toàn mở, OLMoE-1B-7B hoàn toàn mở, Qwen2 7B có trọng số mở và Qwen2 72B có trọng số mở. Dữ liệu và công thức huấn luyện là giống nhau cho tất cả các mô hình trong họ Molmo, ngoại trừ tốc độ học của bộ tối ưu hóa. Điều này có nghĩa là, sau khi bộ mã hóa thị giác và LLM được chọn, quy trình huấn luyện tiếp theo sẽ nhất quán trên các mô hình Molmo khác nhau. Việc lựa chọn bộ mã hóa thị giác và LLM cho phép sự linh hoạt và khả năng mở rộng trong khuôn khổ Molmo. Kiến trúc Molmo được minh họa trong Hình 1.
IV. Thu thập dữ liệu và Huấn luyện
Các mô hình Molmo được huấn luyện bằng một quy trình đơn giản gồm hai giai đoạn. Quy trình này bắt đầu với các bộ mã hóa thị giác và mô hình ngôn ngữ được huấn luyện trước một cách độc lập.
- ● Giai đoạn 1: Huấn luyện trước đa phương thức để tạo chú thích Giai đoạn này liên quan đến việc huấn luyện mô hình để tạo chú thích bằng cách sử dụng bộ dữ liệu PixMo-Cap mới được thu thập. Điểm đổi mới chính ở đây là một chiến lược thu thập dữ liệu mới, tránh được các vấn đề về hạn chế thời gian và sự phụ thuộc vào các VLM độc quyền. Thay vì yêu cầu người chú thích viết mô tả hình ảnh, họ được yêu cầu mô tả hình ảnh bằng giọng nói trong 60 đến 90 giây. Người chú thích được nhắc mô tả chi tiết mọi thứ họ thấy, bao gồm cả vị trí và mối quan hệ không gian. Phương pháp này đã được chứng minh bằng thực nghiệm là mang lại các mô tả chi tiết hơn nhiều trong thời gian ngắn hơn và các biên lai âm thanh cung cấp bằng chứng rằng VLM không được sử dụng.
- ● Âm thanh của người chú thích được phiên âm bằng hệ thống chuyển giọng nói thành văn bản có sẵn. Văn bản được phiên âm sau đó được xử lý bằng một LLM chỉ dành cho ngôn ngữ để cải thiện chất lượng văn bản. Điều này bao gồm việc loại bỏ các tạo tác trong lời nói và chuẩn hóa phong cách. Ngoài ra, một mô tả hình ảnh thứ tư được tạo bằng cách yêu cầu một LLM chỉ dành cho ngôn ngữ tóm tắt ba bản ghi gốc thành một mô tả duy nhất. Cả bốn bản ghi được xử lý bằng LLM này đều được sử dụng như một hình thức tăng cường dữ liệu tự nhiên. Tổng cộng, các mô hình được huấn luyện trên 712 nghìn hình ảnh riêng biệt với khoảng 1,3 triệu chú thích.
- ● Giai đoạn 2: Tinh chỉnh giám sát Sau khi huấn luyện để tạo chú thích, tất cả các tham số mô hình đều được tinh chỉnh bằng cách sử dụng kết hợp dữ liệu huấn luyện có giám sát. Sự kết hợp này bao gồm các bộ dữ liệu học thuật phổ biến và các bộ dữ liệu PixMo mới được thu thập. Các bộ dữ liệu PixMo mới bao gồm:
-
○ PixMo-AskModelAnything: Bộ dữ liệu này được tạo ra để cho phép mô hình trả lời một tập hợp đa dạng các câu hỏi mà người dùng có thể hỏi trong các tình huống thực tế. Người chú thích đã sử dụng một LLM chỉ dành cho ngôn ngữ để tạo các bộ ba hình ảnh-câu hỏi-câu trả lời. Người chú thích sẽ chọn một hình ảnh, viết một câu hỏi về nó và sử dụng mô hình giai đoạn 1 để tạo chú thích dày đặc. Họ sẽ chuyển chú thích, đầu ra OCR và câu hỏi cho LLM chỉ dành cho ngôn ngữ để tạo ra câu trả lời. Người chú thích sau đó có thể chấp nhận hoặc từ chối câu trả lời và yêu cầu LLM sửa cho đến khi có thể chấp nhận được. Bộ dữ liệu này chứa 162 nghìn cặp câu hỏi-câu trả lời và 73 nghìn hình ảnh.
-
○ PixMo-Points: Bộ dữ liệu này được tạo ra với mục tiêu cho phép mô hình chỉ vào các đối tượng được mô tả bằng văn bản, đếm bằng cách chỉ và sử dụng việc chỉ như một hình thức giải thích trực quan tự nhiên. Người chú thích sẽ chỉ vào một thứ gì đó trong một hình ảnh, viết mô tả và sau đó chỉ vào mọi trường hợp của thứ đó trong hình ảnh. Dữ liệu "không có mặt" cũng được thu thập. Bộ dữ liệu chứa 2,3 triệu cặp câu hỏi-điểm từ 428 nghìn hình ảnh. Để sử dụng các điểm như một hình thức giải thích, quy trình PixMo-AskModelAnything đã được tăng cường để người chú thích có thể chuyển cho LLM một danh sách các điểm được chú thích bằng văn bản. Điều này dẫn đến 79 nghìn cặp câu hỏi-câu trả lời từ 29 nghìn hình ảnh.
-
○ PixMo-CapQA: Bộ dữ liệu này được tạo bằng cách nhắc một LLM chỉ dành cho ngôn ngữ đặt và trả lời các câu hỏi chỉ dựa trên chú thích thực tế cho một hình ảnh. Bộ dữ liệu chứa 214 nghìn cặp câu hỏi-câu trả lời từ 165 nghìn hình ảnh.
-
○ PixMo-Docs: Bộ dữ liệu này chứa mã do LLM tạo cho 255 nghìn hình ảnh chứa nhiều văn bản và hình, bao gồm biểu đồ, tài liệu, bảng và sơ đồ. Sau đó, LLM đã tạo ra 2,3 triệu cặp câu hỏi-câu trả lời bằng cách sử dụng mã.
-
○ PixMo-Clocks: Đây là một tập dữ liệu tổng hợp gồm các đồng hồ kim với các câu hỏi và câu trả lời về thời gian. Bộ dữ liệu chứa 826 nghìn ví dụ. ○ Các bộ dữ liệu học thuật được sử dụng bao gồm VQA v2 train, TextVQA train, OK-VQA train, ChartQA train, DocVQA train, InfographicVQA train, AI2D train, A-OKVQA train, Android-Control train, ScienceQA train, TabMWP train, ST-VQA train, TallyQA train, DVQA train, FigureQA train và PlotQA train.
Tất cả các tham số mô hình đều được cập nhật trong cả hai giai đoạn và không sử dụng RLHF.
V. Kết luận
Bài báo về Molmo giới thiệu một họ mô hình ngôn ngữ thị giác (VLM) mã nguồn mở mới, cùng với bộ dữ liệu PixMo. Những đóng góp chính bao gồm: ● Một phương pháp dựa trên giọng nói để tạo chú thích hình ảnh chất lượng cao, tránh dữ liệu tổng hợp. ● Bộ dữ liệu PixMo cho các nhiệm vụ đa dạng bao gồm hỏi đáp (Q&A), chỉ điểm và hiểu tài liệu. ● Hiệu suất mạnh mẽ vượt trội so với các hệ thống độc quyền trong các đánh giá chuẩn. Các mô hình được huấn luyện thông qua quy trình hai giai đoạn và tất cả các trọng số mô hình, dữ liệu và mã nguồn sẽ được phát hành.