Bài báo này là một phần được chọn từ "The Algorithmic Bridge", một dự án giáo dục nhằm thu hẹp khoảng cách giữa AI và con người.
Hôm qua, OpenAI đã công bố mô hình AI quan trọng nhất từ trước đến nay vào năm 2024: Sora, mô hình chuyển văn bản thành video hàng đầu (SOTA) có thể tạo các video chất lượng cao, trung thực dài 1 phút với các tỷ lệ khung hình và độ phân giải khác nhau. Gọi nó là SOTA là một cách nói giảm nhẹ; Sora vượt xa bất kỳ mô hình nào khác trong lĩnh vực này. Nó tổng quát, có thể mở rộng và nó cũng là... một trình mô phỏng thế giới?
Phần giải thích ngắn: Xin lỗi Google, Gemini 1.5 là bản phát hành quan trọng nhất ngày hôm qua - và có lẽ là của năm 2024 - nhưng OpenAI không muốn trao cho bạn một chút quyền anh hùng nào (nếu tin Jimmy Apples, OpenAI đã có Sora sẵn sàng từ tháng 3 - cái gì? - điều này có thể giải thích tại sao họ luôn kịp thời trong việc phá vỡ các động thái PR của đối thủ cạnh tranh). Dù sao tôi cũng sẽ viết một bài đánh giá về Gemini 1.5 vì mặc dù nó không được chú ý, chúng ta không nên bỏ qua bước đột phá về cửa sổ ngữ cảnh 10 triệu token.
Quay lại với Sora. Bài viết gồm hai phần này dành cho những người không biết gì về mô hình AI này. Nó cũng dành cho những người đã xem hàng loạt video được tạo ra tràn ngập dòng thời gian X nhưng không buồn đọc bài đăng hoặc báo cáo.
Trong phần đầu tiên (phần này), tôi sẽ xem xét mô hình và "báo cáo" kỹ thuật (nó xứng đáng được đặt trong dấu ngoặc kép) ở mức độ cao (phần lớn sẽ tránh thuật ngữ chuyên ngành) và sẽ xen kẽ xuyên suốt văn bản những ví dụ hay nhất mà tôi đã tổng hợp và một số nhận xét và giả thuyết sâu sắc mà tôi đã đọc về cách Sora được đào tạo và những gì chúng ta có thể mong đợi trong các bản phát hành sắp tới.
Trước khi bạn hỏi, OpenAI hiện không phát hành Sora (ngay cả dưới dạng bản xem trước nghiên cứu cấp thấp). Mô hình đang trải qua các cuộc kiểm tra an toàn và nhóm đối đầu. OpenAI muốn thu thập phản hồi từ "các nhà hoạch định chính sách, nhà giáo dục và nghệ sĩ trên toàn thế giới". Họ cũng đang phát triển một trình phân loại để nhận dạng video do Sora tạo và các cách để ngăn chặn thông tin sai lệch.