GPT-4, mô hình ngôn ngữ mới nhất được OpenAI công bố, bị nhiều người trong cộng đồng AI bày tỏ sự thất vọng vì thiếu thông tin công khai. Điều này làm tăng căng thẳng đối với vấn đề an toàn trong sử dụng AI.
Bài này được dịch lại từ bài viết của The Verge do James Vincent thực hiện. Các bạn có thể tìm đọc bài phỏng vấn gốc tại đây.
Vào ngày 14/03, OpenAI đã công bố GPT-4, mô hình ngôn ngữ AI thế hệ tiếp theo được chờ đợi từ lâu. Các khả năng của hệ thống vẫn đang được thử nghiệm và đánh giá, nhưng khi các nhà nghiên cứu và chuyên gia đào sâu các tài liệu đi kèm của GPT-4, nhiều người đã bày tỏ sự thất vọng: mặc dù tên công ty mẹ có nghĩa là AI Mở, GPT-4 lại không phải là một mô hình AI mở.
OpenAI chia sẻ rất nhiều kết quả thử nghiệm của GPT-4 cùng với một số bản demo thú vị, nhưng lại không cung cấp bất kỳ thông tin nào về dữ liệu được sử dụng để huấn luyện hệ thống, năng lượng tiêu hao, hay phần cứng hoặc phương pháp cụ thể được sử dụng để tạo ra nó .
Tranh cãi: Nghiên cứu về AI nên mở hay đóng?
Nhiều người trong cộng đồng AI đã chỉ trích quyết định này, chỉ ra rằng nó làm suy yếu nét đặc biệt của công ty OpenAI với tư cách là một tổ chức nghiên cứu và khiến những người khác khó tái tạo lại nghiên cứu của họ. Quan trọng hơn, một số người nói rằng việc này cũng gây khó khăn cho việc phát triển các biện pháp bảo vệ chống lại mối đe dọa do các hệ thống AI như GPT-4 gây ra, và những lời phàn nàn này đến vào đúng thời điểm căng thẳng gia tăng khi AI đang đạt được nhiều sự phát triển nhanh chóng.
“Tôi nghĩ chúng ta có thể đóng cửa "Open" AI: bài báo dài 98 trang giới thiệu về GPT-4 tự hào tuyên bố rằng họ *không tiết lộ gì* về nội dung tập huấn luyện của họ,” Ben Schmidt tweet về vấn đề này.
Ở đây, Schmidt đang đề cập đến một phần trong báo cáo kỹ thuật GPT-4 với nội dung có thể được dịch ra như sau:
Do bối cảnh cạnh tranh và ý nghĩa an toàn của các mô hình quy mô lớn như GPT-4, báo cáo này không cung cấp thêm bất kỳ thông tin chi tiết nào về kiến trúc (bao gồm cả kích thước mô hình), phần cứng, chi phí huấn luyện, xây dựng tập dữ liệu, phương pháp huấn luyện, hay các thông tin tương tự.
Trong một cuộc phỏng vấn với The Verge, Ilya Sutskever, trưởng phòng khoa học và đồng sáng lập của OpenAI, đã chia sẻ thêm về điểm này. Sutskever cho biết lý do OpenAI không chia sẻ thông tin về GPT-4 - do sợ cạnh tranh và lo ngại về an toàn - là "hiển nhiên":
Sutskever cho biết: "Về mặt cạnh tranh - là cạnh tranh với công ty ngoài. GPT-4 không hề dễ xây dựng. Gần như cả công ty OpenAI đã làm việc cùng nhau trong một thời gian rất dài để tạo ra hệ thống này. Và có rất nhiều công ty muốn làm điều tương tự, vì vậy từ khía cạnh cạnh tranh, bạn có thể coi đây là biểu hiện của sự trưởng thành trong lĩnh vực này."
"Về khía cạnh an toàn, ý tôi muốn nói rằng khía cạnh an toàn chưa phải là lý do nổi bật như khía cạnh cạnh tranh. Nhưng nó sẽ thay đổi, và về cơ bản nó như sau. Những mô hình này rất mạnh mẽ và chúng ngày càng trở nên mạnh mẽ hơn. Vào thời điểm nào đó, nếu muốn, một người có thể dễ dàng gây ra nhiều tổn hại bằng những mô hình đó. Việc khả năng này trở nên cao hơn đồng nghĩa với việc bạn không muốn tiết lộ chúng."
“Tôi hoàn toàn tin rằng trong một vài năm nữa, mọi người sẽ thấy rõ AI mã nguồn mở là không khôn ngoan”
Cách tiếp cận đóng như vậy là một sự thay đổi rõ rệt đối với OpenAI, được thành lập vào năm 2015 bởi một nhóm nhỏ bao gồm Giám đốc điều hành hiện tại Sam Altman, Giám đốc điều hành Tesla Elon Musk (người đã từ chức vào năm 2018) và Sutskever. Trong một bài đăng giới thiệu trên blog, Sutskever và những người khác cho biết mục tiêu của tổ chức là “xây dựng giá trị cho mọi người hơn là cho các cổ đông” và rằng tổ chức sẽ cộng tác với những người khác trong lĩnh vực này để làm điều đó. OpenAI được thành lập với tư cách là một tổ chức phi lợi nhuận nhưng sau đó lại trở thành “lợi nhuận có giới hạn” (capped profit) để thu hút hàng tỷ đô-la đầu tư, chủ yếu từ Microsoft, công ty hiện có giấy phép kinh doanh độc quyền.
Khi được hỏi tại sao OpenAI thay đổi cách tiếp cận trong chia sẻ nghiên cứu, Sutskever chỉ trả lời đơn giản: “Chúng tôi đã sai. Thẳng thắn mà nói, chúng tôi đã sai. Nếu bạn tin, như chúng tôi, rằng tại một thời điểm nào đó, AI - hay AGI - sẽ trở nên vô cùng mạnh mẽ đến không thể tin được, thì việc cung cấp mã nguồn mở trở nên vô nghĩa. Đó là một ý tưởng tồi… Tôi hoàn toàn tin rằng trong một vài năm nữa, mọi người sẽ thấy rõ AI mã nguồn mở là không khôn ngoan.”
Ý kiến trong cộng đồng AI về vấn đề này khá bất đồng. Đáng chú ý, sự ra mắt của GPT-4 diễn ra chỉ vài tuần sau khi một mô hình ngôn ngữ AI khác được phát triển bởi Meta, có tên là LLaMA, bị rò rỉ trên mạng, gây ra các cuộc thảo luận tương tự về các mối đe dọa và lợi ích của nghiên cứu mã nguồn mở. Tuy nhiên, hầu hết các phản ứng ban đầu đối với mô hình đóng của GPT-4 đều tiêu cực.
Qua cuộc trò chuyện với The Verge, Schmidt của Nomic AI giải thích rằng việc không được biết GPT-4 được huấn luyện trên dữ liệu gì khiến khó biết được hệ thống có thể được sử dụng an toàn ở đâu và đưa ra các bản sửa lỗi.
Schmidt cho biết: "Để đưa ra quyết định sáng suốt về việc mô hình này sẽ không hoạt động ở đâu, mọi người cần hiểu rõ hơn về những gì nó làm và những giả định nào được đưa vào. Tôi sẽ không tin tưởng vào một chiếc xe tự lái đã được huấn luyện nhưng không có kinh nghiệm ở vùng có tuyết; có thể có một số lỗ hổng hoặc vấn đề khác có thể xuất hiện khi mô hình này được sử dụng trong các tình huống thực tế."
William Falcon, Giám đốc điều hành của Lightning AI và là người tạo ra công cụ mã nguồn mở PyTorch Lightning, chia sẻ với VentureBeat rằng ông hiểu quyết định này từ góc độ kinh doanh. ("Bạn có mọi quyền để làm điều đó với tư cách là một công ty.") Nhưng anh cũng cho biết động thái này đã tạo ra một "tiền lệ xấu" cho cộng đồng và có thể gây ra những tác động tiêu cực.
“Nếu mô hình này gặp vấn đề … thì cộng đồng nên phản ứng lại như thế nào đây?”
"Nếu mô hình này gặp sự cố và nó sẽ xảy ra, bạn đã thấy nó gây ra ảo giác qua việc cung cấp thông tin sai lệch, thì cộng đồng nên phản ứng như thế nào đây?" Falcon nói. "Làm thế nào để các nhà nghiên cứu đạo đức có thể thực sự đề xuất các giải pháp và nói rằng, cách này không hiệu quả, có lẽ điều chỉnh nó một chút để làm theo cách khác?"
Một lý do khác được một số người đưa ra để lý luận cho việc OpenAI che giấu chi tiết về cấu trúc của GPT-4 là trách nhiệm pháp lý. Các mô hình ngôn ngữ AI được huấn luyện trên các tập dữ liệu văn bản khổng lồ, trong đó nhiều mô hình (bao gồm cả các hệ thống GPT trước đó) thu thập thông tin từ các trang mạng - có khả năng bao gồm tài liệu có bản quyền. Các mô hình AI sinh hình ảnh được huấn luyện trên nội dung từ internet đã phải đối mặt với nhiều vấn đề pháp lý vì chính lý do này, và một số công ty hiện đang bị kiện bởi các nghệ sĩ và các trang ảnh stock như Getty Images.
Khi được hỏi liệu đây có phải là một trong các lý do tại sao OpenAI không chia sẻ dữ liệu huấn luyện của mình hay không, Sutskever nói: "Theo quan điểm của tôi về vấn đề này, dữ liệu huấn luyện là công nghệ. Nó có thể trông không phải như thế, nhưng nó là vậy. Và lý do chúng tôi không tiết lộ dữ liệu huấn luyện cũng giống như lý do chúng tôi không tiết lộ số lượng tham số.". Sutskever đã không trả lời khi được hỏi liệu OpenAI có thể tuyên bố dứt khoát rằng dữ liệu huấn luyện của nó không bao gồm tài liệu vi phạm bản quyền hay không.
Sutskever đồng ý với những người chỉ trích OpenAI rằng ý tưởng rằng các mô hình nguồn mở giúp phát triển các biện pháp bảo vệ là "có giá trị". "Nếu nhiều người nghiên cứu những mô hình đó, chúng tôi sẽ hiểu thêm về chúng, và điều đó thật tốt," ông nói. OpenAI đã cung cấp cho các tổ chức nghiên cứu và học thuật quyền truy cập nhất định vào các hệ thống của nó cũng vì những lý do này.
Cuộc thảo luận về việc chia sẻ nghiên cứu diễn ra vào đúng thời điểm giới AI đang thay đổi chóng mặt, với áp lực ngày càng tăng trên nhiều phương diện. Về phía doanh nghiệp, những gã khổng lồ công nghệ như Google và Microsoft đang gấp rút bổ sung các tính năng AI vào sản phẩm của họ, thường bỏ qua những lo ngại về đạo đức trước đây (Microsoft gần đây đã sa thải một nhóm chuyên đảm bảo các sản phẩm AI của họ tuân thủ các nguyên tắc đạo đức). Về mặt nghiên cứu, bản thân công nghệ này dường như đang cải thiện nhanh chóng, làm dấy lên lo ngại rằng AI đang trở thành mối đe dọa nghiêm trọng.
Jess Whittlestone, đứng đầu bộ phận chính sách AI tại Viện chính sách The Centre for Long-Term Resilience của Anh, cho biết việc cân bằng những áp lực khác nhau này đặt ra một thách thức nghiêm trọng về quản trị.
"Các công ty riêng lẻ không nên được phép đưa ra các quyết định này"
Whittlestone chia sẻ với The Verge: "Ta có thể thấy những khả năng của AI đang phát triển rất nhanh và nhìn chung tôi lo lắng về những khả năng này phát triển nhanh hơn chúng ta có thể thích ứng với chúng với tư cách là một xã hội". Cô ấy nói rằng các lý do mà OpenAI không chia sẻ thêm chi tiết về GPT-4 là tốt, nhưng cũng có những lo ngại chính đáng về quyền lực tập trung trong giới AI.
Whittlestone nói: "Các công ty riêng lẻ không nên được phép đưa ra những quyết định này. Lý tưởng nhất là chúng ta cần hệ thống hóa các thông lệ là gì và sau đó nhờ các bên thứ ba độc lập đóng vai trò trong việc xem xét kỹ lưỡng các rủi ro liên quan đến một số mô hình nhất định và liệu việc phát hành chúng ra thế giới có hợp lý hay không".
dịch bởi Trường Giang,