Thế giới của AI đang không ngừng phát triển với tốc độ chóng mặt, các nhà cung cấp và nghiên cứu đua nhau vượt mặt nhau bằng những công nghệ, khả năng và cột mốc hiệu suất mới. Google mới ra phiên bản Gemini 1.5 Pro để cạnh tranh với GPT-4o.
Google đang chạy đua để theo kịp và có thể vượt qua OpenAI. Vào tháng 12 năm 2023, Google đã công bố họ̣c gia đình LLM đa phương thức Gemini và liên tục cải tiến nó kể từ đó. Mô hình Gemini 1.5 Pro lần đầu tiên được công bố dưới dạng bản xem trước vào tháng 2 năm 2024. Sau đó, mô hình này đã được trình diễn công khai và mở rộng đáng kể tại hội nghị Google I/O vào tháng 5 năm 2024.
Gemini 1.5 Pro là gì?
Tiếp nối sự ra mắt thành công của thế hệ Gemini 1.0 vào tháng 12 năm 2023 với các phiên bản Ultra, Pro và Nano, Google DeepMind đã giới thiệu bản nâng cấp Gemini 1.5 Pro vào tháng 2 năm 2024. So với thế hệ trước, Gemini 1.5 Pro mang đến hiệu năng xử lý vượt trội cùng khả năng hiểu ngữ cảnh dài hơn. Tuy nhiên, giai đoạn đầu, phiên bản này chỉ giới hạn cho các nhà phát triển và doanh nghiệp lớn thông qua Google AI Studio và Vertex AI.
Gemini 1.5 Pro là một mô hình trí tuệ nhân tạo (AI) đa phương thức do Google DeepMind phát triển, cung cấp năng lượng cho các dịch vụ AI thế hệ mới trên nền tảng Google và cho các nhà phát triển bên thứ ba.
Tính năng chính:
- Xử lý văn bản, hình ảnh, âm thanh và video.
- Suy luận đa phương thức để tạo văn bản, trả lời câu hỏi và phân tích nội dung.
Ưu điểm:
- Khả năng xử lý ngữ cảnh lớn (lên đến 1 triệu token)
- Hiệu suất cao hơn và chi phí thấp hơn so với các mô hình trước đây (Gemini 1.0 Ultra)
Lịch sử phát triển:
- Tháng 12/2023: Ra mắt Gemini 1.0 với các phiên bản Ultra, Pro và Nano.
- Tháng 2/2024: Bản xem trước đầu tiên của Gemini 1.5 Pro.
- Tháng 4/2024: Bản xem trước công khai Gemini 1.5 Pro.
- Tháng 5/2024: Google công bố cải tiến cho Gemini 1.5 Pro.
Ứng dụng:
- Dịch thuật
- Lập trình
- Tạo nội dung đa phương thức
- Phân tích dữ liệu
- Và nhiều ứng dụng khác
Gemini 1.5 Pro là một mô hình AI đa phương thức mạnh mẽ với nhiều tiềm năng ứng dụng trong các lĩnh vực khác nhau. Nhờ khả năng xử lý ngữ cảnh lớn và hiệu suất cao, Gemini 1.5 Pro hứa hẹn sẽ mang đến những giải pháp AI sáng tạo và hiệu quả hơn.
So sánh các phiên bản Gemini
Tính năng | Gemini 1.0 Pro |
Gemini 1.5 Pro |
Gemini 1.0 Pro 001 (Tuning) |
---|---|---|---|
Khả dụng | API, Google AI Studio |
API, Google AI Studio |
API, Google AI Studio |
Kích thước mô hình | Lớn |
Rất lớn |
Lớn |
Đa phương tiện | Không |
Có |
Không |
Tuỳ chỉnh | Không |
Không |
Có (Tinh chỉnh được) |
Độ trễ | Trung bình |
Cao |
Trung bình |
Chi phí | Thấp |
Cao |
Trung bình |
Trường hợp sử dụng | Phù hợp cho các tác vụ chung, chatbot đơn giản |
Phù hợp cho các tác vụ phức tạp, xử lý đa phương tiện, sáng tạo nội dung |
Phù hợp cho các tác vụ chuyên biệt, cần độ chính xác cao |
Lưu ý:
- Bảng so sánh này dựa trên thông tin hiện có và có thể thay đổi khi Google cập nhật các phiên bản Gemini.
- “Độ trễ” đề cập đến thời gian phản hồi của mô hình.
- “Chi phí” đề cập đến chi phí sử dụng API.
Lựa chọn phiên bản Gemini phù hợp:
- Gemini 1.0 Pro: Phù hợp cho các ứng dụng chatbot đơn giản, yêu cầu độ trễ thấp và chi phí thấp.
- Gemini 1.5 Pro: Phù hợp cho các ứng dụng đòi hỏi khả năng xử lý đa phương tiện, sáng tạo nội dung phức tạp, chấp nhận độ trễ cao và chi phí cao.
- Gemini 1.0 Pro 001 (Tuning): Phù hợp cho các ứng dụng chuyên biệt, cần độ chính xác cao, có thể tùy chỉnh mô hình.
Cách dùng Gemini 1.5 Pro miễn phí trên Google AI Studio
Google AI Studio là một môi trường cho phép các lập trình viên viết, chạy và kiểm thử các câu lệnh prompt bằng cách sử dụng mô hình Gemini của Google. Ngoài ra, nếu bạn muốn sử dụng Gemini API, bạn có thể lấy Key API của mình từ bên trong Google AI Studio. Để sử dụng Google AI Studio kích hoạt Gemini 1.5 Pro miễn phí bạ truy cập vào trang: https://aistudio.google.com/app/prompts/new_chat. Nếu lần truy cập đầu tiên, bạn sẽ thấy thông báo truy cập vào Prompt hay get API,, nếu chỉ muốn chat với Gemini 1.5 Pro thì bạn chọn New Prompt
Sau đó đăng nhập bằng tài khoản Google và chọn Model là Gemini 1.5 Pro.
Sau đó bạn có thể bắt đầu ra lệnh đê AI thực hiện theo ý muốn. Cách sử dụng Google AI Studio bạn có thể xem ở dưới đây:
Giới thiệu về Google AI Studio
Nếu bạn đã quen thuộc với OpenAI’s Playground, thì Google AI Studio cũng tương tự. Hãy cùng xem qua giao diện người dùng cơ bản như hình dưới đây:
Bất kể bạn chọn chế độ nào, “Run Settings” sẽ giống nhau.
- Model: Hiện tại, Google cung cấp ba mô hình khác nhau, Gemini 1.0 Pro, Gemini 1.5 Pro và Gemini 1.0 Pro 001 (Tuning). Mỗi mô hình này đều có những lợi ích riêng. Ví dụ: Gemini 1.5 Pro cho phép người dùng chèn hình ảnh ngoài video, âm thanh và các tệp khác. Bạn có thể tìm hiểu thêm về LLM của Google trong tài liệu của họ.
- Temperature: Biến này kiểm soát “mức độ sáng tạo” (creativity level) của mô hình. Bằng cách tăng giá trị này, mô hình sẽ chọn các token có khả năng thống kê thấp hơn khi tạo phản hồi. Cách tốt nhất để hiểu tác động của biến này là tự mình thử nghiệm và xem đầu ra thay đổi như thế nào.
- Stop Sequence: Biến này khiến mô hình ngừng tạo token khi một từ / cụm từ cụ thể được tạo. Ví dụ: nếu chuỗi dừng của tôi là “thế giới” và tôi yêu cầu mô hình nói “Xin chào thế giới”, thì đầu ra được tạo sẽ là “Xin chào”. Điều này có nghĩa là chuỗi dừng sẽ không bao giờ được hiển thị / tạo bởi mô hình.
Cài đặt bảo mật
Do bản chất của Mô hình ngôn ngữ lớn (LLM), phản hồi đôi khi có thể không thể dự đoán trước. Mặc dù các bước đã được thực hiện để đảm bảo mô hình tạo ra các phản hồi phù hợp, Google đã tạo ra công cụ quản lý này để đảm bảo các lập trình viên có thể kiểm soát tốt hơn đầu ra.
- Top K: Biến này xác định xem mô hình sẽ chọn các token tiếp theo có khả năng xảy ra nhất không. Giá trị Top K càng cao, mô hình càng dễ dự đoán.
- Top P: Cài đặt này có sẵn trong “Advanced settings” ở góc dưới bên phải. Biến này ảnh hưởng đến số lượng token mà mô hình xem xét khi tạo phản hồi. Giá trị Top P quyết định độ ngẫu nhiên của đầu ra mô hình.
Các chế độ khác nhau của Google AI Studio
Hiện tại, Google AI Studio cung cấp ba chế độ riêng biệt khi tạo với Gemini API. Các tùy chọn này có thể được chọn bằng cách nhấp vào “Tạo mới” ở góc trên cùng bên trái, như được hiển thị dưới đây.
Mỗi chế độ này nhằm giải quyết một trường hợp sử dụng cụ thể.
- Chat Prompt: thường được sử dụng trong chatbot như ChatGPT và chatbot Gemini của Google. Nó được sử dụng để trả lời các câu hỏi của người dùng theo cách hội thoại. Đây là nơi bạn có thể tùy chỉnh chatbot để nói hoặc hành động theo một cách nhất định. Bạn muốn một chatbot dịch vụ khách hàng thân thiện? Một chatbot mỉa mai nói chuyện với bạn? Đây là nơi bạn sẽ yêu cầu mô hình hoạt động theo một cách nhất định.
- Freeform Prompt: Loại nhắc nhở này được sử dụng cho các phản hồi mở. Viết văn sáng tạo
- Structured Prompt: Điểm độc đáo của prompt này là người dùng cần cung cấp các ví dụ (dữ liệu mẫu) về các truy vấn và phản hồi mong muốn.
Tính năng đa phương thức trong Google AI Studio
Một trong những tính năng độc đáo nhất của Google AI Studio là khả năng sử dụng các loại tệp khác nhau trong môi trường làm việc. Chúng bao gồm hình ảnh, video, âm thanh và các tệp từ Google Drive. Điều này giúp các nhà phát triển dễ dàng kiểm tra xem ý tưởng của họ có hoạt động hiệu quả không và cách khắc phục mọi lỗi. Ví dụ: nếu chúng ta sử dụng Nhắc nhở Trò chuyện từ trên và thêm một video mà chúng ta muốn tóm tắt, mô hình sẽ truy cập vào video đã chèn và thực hiện nhiệm vụ. Hãy cùng xem qua ví dụ.
Trong trường hợp này, chúng tôi đã sử dụng một video dài năm phút giới thiệu về các hóa thạch khủng long khác nhau. Khi được yêu cầu, mô hình có thể tương tác với video và tạo ra bản tóm tắt nội dung của nó. Các trường hợp sử dụng kiểu này không thể thực hiện được trong các nền tảng thử nghiệm AI khác (ví dụ như OpenAI).