AI Agent là gì?
Hãy thử tưởng tượng nhé: bạn và nhóm bạn thân đang lên kế hoạch cho một chuyến du lịch từ HCM đến Hà Nội, dự kiến đi từ ngày 14 đến 21 tháng 12.
Để chuyến đi thành hiện thực, bạn sẽ phải làm gì? Chắc chắn sẽ có một danh sách dài những việc cần làm:
- Săn vé máy bay
- Đặt khách sạn
- Xin VISA
- Lên lịch trình tham quan
- Xin sếp nghỉ phép
Và để hoàn thành những việc trên, bạn phải thực hiện hàng loạt hành động: book vé máy bay, đặt phòng khách sạn, đặt lịch hẹn và hoàn tất thủ tục VISA, vạch ra chi tiết từng ngày sẽ đi đâu, làm gì... và ti tỉ thứ không tên khác.
Bây giờ, hãy hình dung hai trạng thái:
- Điểm A: Cả nhóm mới chỉ đang ngồi bàn bạc, vu vơ về chuyến đi trong mơ.
- Điểm B: Mọi thứ đã sẵn sàng! Vé máy bay, xác nhận đặt phòng, VISA trong hộ chiếu, lịch trình chi tiết trên tay. Chỉ cần xách ba lô lên và đi.
Hiện tại, bạn đang ở điểm A và mục tiêu là đến được điểm B.
Định nghĩa về AI Agent
Sẽ ra sao nếu tôi nói với bạn rằng có một cách để tự động đi từ Điểm A đến thẳng Điểm B?
Đó chính là lúc AI Agent xuất hiện.
Định nghĩa đầu tiên: AI Agent là thứ giúp bạn đi từ điểm A đến điểm B, và mang lại giá trị cho nhu cầu của bạn.
"Giá trị" ở đây có thể đong đếm được không? Được chứ! Trong ví dụ này, Agent giúp bạn tiết kiệm hàng giờ, thậm chí hàng chục giờ đồng hồ. Vậy nên, giá trị có thể là thời gian, tiền bạc, hoặc cả hai.
Nhưng... xe hơi cũng làm được vậy mà :3
Nếu chỉ định nghĩa như trên, thì một chiếc xe hơi hay máy bay cũng đưa chúng ta từ điểm A (nhà) đến điểm B (công ty), nhưng chẳng ai gọi chúng là AI Agent cả.
Chúng ta cần một định nghĩa sâu sắc hơn.
Hãy nhìn lại các công việc: săn vé máy bay, tìm địa điểm vui chơi, lên lịch trình... Đây không phải là những hành động đơn giản. Chúng đòi hỏi 2 khả năng cốt lõi mà một Agent phải có:
- Lập kế hoạch (Planning)
- Ra quyết định (Making decisions)
Để chọn được chuyến bay tốt nhất, bạn phải quyết định xem chuyến nào phù hợp với ngân sách, chuyến nào không. Để lên kế hoạch cho ngày thứ 2 ở Hà Nội sau một ngày "cháy phố" tại Hàng Buồm, bạn phải lập kế hoạch dựa trên nhiều yếu tố: khoảng cách di chuyển, sở thích của cả nhóm, v.v.
Vậy hãy "nâng cấp" định nghĩa của chúng ta một chút.
Định nghĩa thứ hai: AI Agent là thứ giúp bạn đi từ điểm A đến điểm B và mang lại giá trị. Trong quá trình đó, nó có khả năng lập kế hoạch và ra quyết định.
Khoan đã, xe tự lái cũng làm được thế :vvv
Xe tự lái cũng đưa bạn từ A đến B. Chúng cũng có thể lập kế hoạch (chọn đường đi) và ra quyết định (khi nào rẽ, khi nào phanh). Vậy là định nghĩa của chúng ta vẫn chưa đủ "chặt".
Để lập kế hoạch và hành động, Agent cần quyền truy cập vào các công cụ (Tools) nhất định.
- Để tìm chuyến bay, Agent cần truy cập vào công cụ tìm kiếm Google.
- Để đặt khách sạn, Agent cần truy cập vào các trang web đặt phòng và cổng thanh toán của họ.
- Để soạn email xin nghỉ phép gửi sếp, Agent cần truy cập vào Gmail.
Vậy mấu chốt ở đây là: Agent cần có Công cụ! Tạm thời, bạn có thể hiểu "công cụ" là quyền truy cập vào những chức năng hữu ích từ bên ngoài.
Định nghĩa thứ ba: AI Agent là thứ giúp bạn đi từ điểm A đến điểm B và mang lại giá trị. Nó có quyền truy cập vào các công cụ, và sử dụng chúng để lập kế hoạch và ra quyết định.
Mô hình Ngôn ngữ Lớn (LLM)
Tại sao vài năm trở lại đây, Agent bỗng dưng "hot" đến vậy?
Câu trả lời nằm ở một bài báo khoa học năm 2017 có tên "Attention is All You Need".
Bài báo này đã giới thiệu một kiến trúc mang tên Transformer, và nó đã thay đổi hoàn toàn cuộc chơi của ngành xử lý ngôn ngữ.
Các mô hình ngôn ngữ bỗng trở nên thông minh vượt bậc trong việc hiểu và phản hồi ngôn ngữ của con người. Thế hệ mô hình mạnh mẽ này được gọi là Mô hình Ngôn ngữ Lớn (LLM) vì kích thước và số lượng tham số khổng lồ của chúng. Một ví dụ điển hình mà bạn vẫn dùng hàng ngày chính là ChatGPT.
Vậy LLM và Agent liên quan gì đến nhau?
Agent sử dụng LLM làm "bộ não" để lập kế hoạch, suy luận và ra quyết định.
Nếu LLM không giỏi hiểu ngôn ngữ, Agent sẽ không thể nào lập kế hoạch hay ra quyết định một cách hiệu quả.
Để chọn được chuyến bay tốt nhất từ một trang web, Agent phải hiểu được nội dung trên đó.
Để soạn một email chuyên nghiệp gửi sếp, Agent phải hiểu ngôn ngữ và biết cách hành văn.
Nền tảng của việc lập kế hoạch và ra quyết định chính là khả năng thấu hiểu ngôn ngữ. Từ đây, chúng ta có một định nghĩa gần hoàn chỉnh hơn:
Định nghĩa thứ tư: AI Agent là một LLM giúp bạn đi từ điểm A đến điểm B và mang lại giá trị. Agent có quyền truy cập vào các công cụ, và sử dụng chúng để lập kế hoạch và ra quyết định.
Các bài báo khoa học nền tảng
Dành cho các bạn muốn "đào sâu" nghiên cứu, đây là 4 bài báo khoa học quan trọng đã góp phần lớn vào sự phát triển của lĩnh vực AI Agent:
Kết
Cảm ơn các bạn đã theo dõi hết bài viết. Hy vọng qua ví dụ về chuyến đi Hà Nội, mọi người đã có một cái nhìn rõ ràng và trực quan hơn về AI Agent, bài viết sau chúng ta sẽ tìm hiểu về LLMs và các khái niệm liên quan.