1. Giới thiệu

ChatGPT chắc không còn xa lạ với ace, là một mô hình trí tuệ nhân tạo được phát triển bởi OpenAI, dựa trên kiến trúc GPT (Generative Pre-trained Transformer). Nó được huấn luyện trên một lượng lớn data từ Internet để có khả năng hiểu và tạo ra văn bản, hình ảnh tự nhiên. Các phiên bản của Chat GPT:

GPT-1: Phiên bản đầu tiên, ra mắt vào năm 2018, có 117 triệu tham số. Nó đặt nền móng cho việc sử dụng mô hình Transformer trong xử lý ngôn ngữ tự nhiên.
GPT-2: Ra mắt vào năm 2019 với 1,5 tỷ tham số. GPT-2 có khả năng tạo ra văn bản mạch lạc và đã gây ấn tượng mạnh với khả năng hoàn thành câu và viết văn bản dài.
GPT-3: Phát hành vào năm 2020 với 175 tỷ tham số. Đây là một bước nhảy vọt về khả năng hiểu và tạo ngôn ngữ, hỗ trợ nhiều ứng dụng hơn và cải thiện đáng kể độ chính xác và tính tự nhiên của các phản hồi.
GPT-4: Phát hành vào năm 2023. Nó tiếp tục cải thiện khả năng xử lý ngôn ngữ, tăng cường độ chính xác, độ mạch lạc và tính an toàn của các phản hồi. GPT-4 hỗ trợ tốt hơn cho đa ngôn ngữ và có khả năng tùy chỉnh cao hơn cho các ứng dụng cụ thể.

Và gần đây nhất, 13/5/2024 Open AI đã phát hành GPT-4o chữ "o" viết tắt cho "omni" (toàn năng) là một bước hướng tới sự tương tác giữa con người và máy tính tự nhiên hơn nhiều nó chấp nhận input vào bất kỳ sự kết hợp nào giữa văn bản, âm thanh và hình ảnh. GPT-4o được Open AI cung cấp cho người dùng trải nghiệm free. Tuy nhiên ở bản free sẽ bị giới hạn số lượng câu hỏi trong khoảng thời gian nhất định. Google cũng có sự đáp trả ở hội nghị Google I/O 2024 với những cập nhật lớn cho Google Gemini đối đầu trực tiếp với ChatGPT.

2. Khả năng của Model

Trước GPT-4o, bạn có thể sử dụng Voice Mode để nói chuyện với ChatGPT với độ trễ trung bình là 2.8 giây (GPT-3.5) và 5.4 giây (GPT-4). Để đạt được điều này, Voice Mode là một liên kết của ba mô hình riêng biệt: một mô hình đơn giản chuyển âm thanh thành văn bản, GPT-3.5 hoặc GPT-4 nhận văn bản và đưa ra văn bản, và một mô hình đơn giản thứ ba chuyển đổi văn bản đó thành âm thanh. Quá trình này có nghĩa là nguồn thông tin chính GPT-4 mất rất nhiều thông tin — nó không thể quan sát trực tiếp tông điệu, nhiều người nói hoặc tiếng ồn nền, và không thể đưa ra tiếng cười, hát hò hoặc biểu đạt cảm xúc.

Với GPT-4o đã huấn luyện một mô hình mới duy nhất từ đầu đến cuối qua văn bản, hình ảnh và âm thanh, có nghĩa là tất cả các đầu vào và đầu ra đều được xử lý bởi cùng một mạng neural.

3. GPT-4o có tính năng gì nổi bật?

3.1 Nhanh hơn và mượt mà hơn

Một trong những tính năng nổi bật của GPT-4o là tốc độ. Không chỉ tương đương với GPT-4 Turbo trong việc xử lý văn bản tiếng Anh và coding, GPT-4o còn vượt trội hơn trong việc xử lý các ngôn ngữ không phải tiếng Anh. Điều này mang lại trải nghiệm mượt mà hơn cho người dùng toàn cầu.

3.2 Kết hợp hình ảnh, âm thanh và văn bản

GPT-4o không chỉ dừng lại ở văn bản. Nó tích hợp cả đầu vào và đầu ra âm thanh và hình ảnh. Hãy tưởng tượng việc hỏi máy tính một câu hỏi bằng giọng nói và nó không chỉ nhận diện từ ngữ mà còn cả giọng điệu và ngữ cảnh, hoặc hiển thị một bức ảnh và nhận được lời giải thích trong vài giây. GPT-4o có thể phản hồi các câu hỏi bằng giọng nói chỉ trong 232 mili giây—tương đương với phản hồi của con người trong cuộc trò chuyện.

3.3 Xử lý liền mạch hơn

Các phiên bản trước của Voice Mode trong ChatGPT liên quan đến một quá trình khá cồng kềnh khi các mô hình khác nhau xử lý các nhiệm vụ khác nhau: một mô hình sẽ chuyển đổi giọng nói thành văn bản, mô hình khác xử lý văn bản, và mô hình khác nữa sẽ chuyển văn bản thành giọng nói. GPT-4o đơn giản hóa tất cả điều này với một mô hình duy nhất xử lý từ đầu đến cuối các đầu vào và đầu ra văn bản, hình ảnh, và âm thanh. Điều này không chỉ giảm thời gian phản hồi mà còn cải thiện chất lượng tương tác. Mô hình này giờ đây có thể phát hiện các sắc thái như giọng điệu, nhận diện nhiều người nói, và thậm chí tích hợp các âm thanh như cười hoặc hát vào phản hồi của nó.

3.4 Tính năng an toàn

OpenAI tuyên bố rằng họ đã triển khai các kỹ thuật mới để đảm bảo model outputs luôn đáng tin cậy và an toàn trên tất cả các modalities mới. Điều này bao gồm data refined training data và built-in safeguards được thiết kế đặc biệt cho các tương tác bằng giọng nói.

3.5 Bản free cũng có thể trải nghiệm

Bạn có thể trải nghiệm GPT-4o ngay khi ở bản free. Tuy nhiên, cái gì cũng có cái giá của nó =))) ở bản free bạn sẽ bị giới hạn số lượng câu hỏi trong khoảng thời gian nhất định. Bạn có thể trải nghiệm ngay tại đây.

3.6 Desktop app trên macOS

Trong bài viết mới đây, Open AI cũng đề cập đến desktop app trên macOS đối với cả phiên bản free và trả phí. Được thiết kế để tích hợp liền mạch với mọi thứ bạn đang làm trên máy tính của mình. Với phím tắt đơn giản (Option + Space), bạn có thể đặt câu hỏi ngay lập tức cho ChatGPT. Bạn cũng có thể chụp và thảo luận về ảnh chụp màn hình trực tiếp hay dùng Voice Mode trong app. Tuy nhiên, hiện tại ở Việt Nam vẫn chưa thể download bản desktop app này, nếu muốn trải nghiệm bạn có thể dùng VPN/Proxy chuyển vùng sang Mỹ rồi tiến hành tải về hoặc đợi thêm một thời gian nữa để trải nghiệm!

Chat GPT-4o đã được phát hành!

1. Giới thiệu

2. Khả năng của Model

3. GPT-4o có tính năng gì nổi bật?

3.1 Nhanh hơn và mượt mà hơn

3.2 Kết hợp hình ảnh, âm thanh và văn bản

3.3 Xử lý liền mạch hơn

3.4 Tính năng an toàn

3.5 Bản free cũng có thể trải nghiệm

3.6 Desktop app trên macOS

4. Tài liệu tham khảo

Bình luận

Bài viết tương tự

Các thuật toán cơ bản trong AI - Phân biệt Best First Search và Uniform Cost Search (UCS)

Con đường AI của tôi

[ChatterBot] Thư viện chatbot hay ho dành cho Python| phần 3

[Deep Learning] Kỹ thuật Dropout (Bỏ học) trong Deep Learning

Kỹ thuật Dropout (Bỏ học) trong Deep Learning

Blockchain dưới con mắt làng Vũ Đại 4.0