Từ hiện tại đến A2A: Vượt qua “hố ngăn cách tưởng tượng”

Nghe bài viết:

99% các tác nhân (agent), công cụ và dịch vụ hữu ích nhất vẫn chưa được xây dựng.

Từ hiện tại đến A2A: Vượt qua “hố ngăn cách tưởng tượng”

Không phải vì các mô hình nền tảng chưa đủ tốt. Không phải vì chúng ta thiếu hạ tầng. Mà vì phần lớn các ngành có thể bị agent thay đổi căn bản vẫn chưa định nghĩa rõ “agent” là gì.

Bạn không thể xây thứ bạn không thể hình dung, và bạn không thể hình dung thứ bạn không thể định nghĩa.

Ngay cả ở San Francisco, đa số mọi người vẫn chưa tưởng tượng được một thế giới thực sự “agent-native” sẽ trông như thế nào.

Chúng ta đang cùng trải qua thứ tôi gọi là: hố ngăn cách tưởng tượng.

Định nghĩa rất quan trọng. Vậy agent là gì?

Với tôi, agent rất đơn giản:

agent := model(s) + tool(s)

Không phải là một quy trình (workflow).
Không phải là một lớp bọc GPT hay Nano Banana.
Không phải là một lớp định tuyến prompt mỏng.
Không phải là một “kỹ năng” riêng lẻ.

Định nghĩa đặt ra trần của trí tưởng tượng.

Hiện tại, quá nhiều người vẫn xem “agent” như các trợ lý rời rạc, lớp bọc mong manh hoặc quy trình cứng nhắc. Những cách hiểu này đang âm thầm duy trì hố ngăn cách tưởng tượng.

Ngay cả bản thân tôi cũng chạm đến giới hạn tưởng tượng của mình. Khi ai đó hỏi Dedalus sẽ ra sao trong 5 năm tới, tôi không thể đưa ra câu trả lời rõ ràng. Thành thật mà nói, không ai ở tuyến đầu có thể.

OpenClaw đã mở rộng trí tưởng tượng — nhưng vẫn chưa đủ

Với tôi, OpenClaw là một trong những khoảnh khắc đầu tiên mà một agent tổng quát thực sự cho thấy sức mạnh rõ rệt.

Chúng ta đã quá mệt mỏi với các quy trình được “trang điểm” hay những bản demo bóng bẩy bị gọi là tương lai. OpenClaw đã nâng tiêu chuẩn chung về việc agent có thể làm gì trong thế giới thực.

Nhưng như vậy vẫn chưa đủ.

Theo chính định nghĩa ở trên, OpenClaw vẫn chỉ là một agent tổng quát mạnh mẽ có quyền truy cập vào nhiều mô hình và công cụ. Đó là một bước tiến lớn, nhưng cũng làm lộ rõ khoảng cách còn lại.

Quan trọng hơn, đây mới chỉ là phần nổi của tảng băng. Nếu đây là 1% đầu tiên, thì phần còn lại sẽ như thế nào?

Mạnh không đồng nghĩa với an toàn

Tôi tin rằng một agent có đầy đủ ngữ cảnh không nên mặc định có toàn quyền truy cập.

Biết mọi thứ không có nghĩa là được phép làm mọi thứ. Và cũng không nên như vậy.

Đây là điểm mà nhiều người bắt đầu nhầm lẫn giữa agent mạnh và agent an toàn.

Một agent đơn lẻ vẫn có thể rất mạnh. Nó có thể sử dụng nhiều công cụ, chuyển đổi giữa các mô hình và xử lý các nhiệm vụ phức tạp. Nhưng khi bạn muốn agent hoạt động trong thế giới thực, phạm vi trở nên cực kỳ quan trọng.

Phạm vi của ngữ cảnh. Phạm vi của quyền truy cập công cụ. Phạm vi của quyền hạn. Phạm vi của niềm tin.

Đây là lúc việc điều phối nhiều agent bắt đầu trở nên thực tế. Một agent tổng quát mạnh mẽ không nên làm tất cả mọi thứ. Nó nên có khả năng phân công công việc cho các agent con với vai trò hẹp hơn, công cụ khác nhau, khả năng khác nhau và ranh giới tin cậy khác nhau.

Khi nhìn vấn đề theo cách đó, sẽ thấy rõ rằng tương lai A2A không chỉ là làm cho agent mạnh hơn. Nó là việc xây dựng toàn bộ hệ thống để chúng có thể giao tiếp, phối hợp, xác thực, giao dịch và được đánh giá một cách an toàn trong thế giới thực.

Sáu bước để tiến tới A2A

Ở cấp độ tổng thể, thế giới vẫn cần sáu thành phần nền tảng. Đó là một lớp giao tiếp chung, một hạ tầng có thể mở rộng, một cơ chế tin cậy, một hệ thống thanh toán, một thị trường trao đổi và một cách đo lường chất lượng.

Những yếu tố này kết hợp lại để tạo thành nền tảng cho một nền kinh tế A2A thực sự.

1. Lớp giao tiếp chuẩn cho A2A

Các mô hình cần một cách tiêu chuẩn để giao tiếp với công cụ, và các agent cần một cách tiêu chuẩn để giao tiếp với nhau.

Đó là lý do các giao thức như MCP và A2A trở nên quan trọng. MCP cung cấp cách chuẩn để kết nối với công cụ, tài nguyên và prompt. A2A cung cấp cách chuẩn để agent phân công công việc cho agent khác.

Giao thức thay thế các đoạn mã “dán nối” riêng lẻ bằng các giao diện chung.

Trong thời gian qua, cộng đồng đã thay đổi hướng chú ý nhiều lần, từ MCP sang “skills” rồi sang CLI. Tuy nhiên, skills và CLI không phải là giao thức.

Skills chỉ cung cấp hướng dẫn cụ thể cho mô hình. CLI là một cách tương tác dạng dòng lệnh. Cả hai đều thiếu khả năng tương tác liên thông mà một giao thức mang lại.

Giao thức mở ra một lớp một-nhiều, nơi một agent có thể khám phá, định tuyến và tương tác an toàn với nhiều công cụ, dịch vụ hoặc agent khác thông qua một tiêu chuẩn chung.

Nếu bạn muốn xây dựng các agent và công cụ có thể được tìm thấy và kiếm tiền, bạn cần một tiêu chuẩn để cả hệ sinh thái có thể hình thành xung quanh nó.

MCP cũng tách biệt các loại tương tác khác nhau: tài nguyên cung cấp ngữ cảnh, công cụ thực hiện hành động và prompt định hình hành vi. Sự tách biệt này quan trọng vì agent không nên nhận toàn bộ ngữ cảnh và quyền hạn từ cùng một nguồn.

Tuy vậy, MCP vẫn còn ở giai đoạn đầu và A2A còn sớm hơn nữa.

2. Hạ tầng có thể mở rộng và không phụ thuộc nhà cung cấp

Giao thức không phải là hạ tầng, và việc nhầm lẫn hai khái niệm này đang làm chậm thị trường.

Một giao thức có thể chuẩn hóa cách tương tác, nhưng không thể tự mình giúp việc xây dựng, kiểm thử, triển khai hay mở rộng agent trở nên dễ dàng.

Hiện nay, rào cản để xây dựng một agent đạt chuẩn sản phẩm thực tế vẫn còn quá cao. Lập trình viên không nên phải viết hàng trăm dòng mã chỉ để kết nối mô hình, công cụ, định tuyến, theo dõi và hạ tầng đám mây cho một agent duy nhất.

Họ nên tập trung vào việc tìm kiếm sự phù hợp với thị trường và khám phá giới hạn trí tưởng tượng của chính mình.

Nếu việc xây dựng một agent đã khó, thì việc xây dựng hệ thống nhiều agent sẽ gần như không thể.

Điều mà mọi người thực sự cần là một cách đơn giản, từ đầu đến cuối, để xây dựng, kiểm thử, triển khai và vận hành agent ở quy mô lớn. Và hạ tầng đó phải không phụ thuộc vào một nhà cung cấp cụ thể.

Trong tương lai, khi các mô hình dần đạt mức năng lực tương đương, lợi thế sẽ nằm ở việc chọn đúng mô hình, đúng công cụ và triển khai đúng tổ hợp cho từng trường hợp sử dụng một cách nhanh nhất.

Lớp hạ tầng nào giảm được rào cản này nhiều nhất sẽ chiến thắng.

3. Xác thực động và an toàn

Agent không vấp phải giới hạn về khả năng trước, mà vấp phải giới hạn về niềm tin.

Hiện tại, hầu như chưa ai thực sự tin tưởng agent, và điều đó hoàn toàn có lý do. Bề mặt bảo mật vẫn còn nhiều vấn đề.

Các rủi ro như tấn công chèn lệnh (prompt injection), giả mạo yêu cầu, chiếm quyền phiên làm việc hay rò rỉ mã truy cập vẫn đang tồn tại. Trong hệ sinh thái OpenClaw, đã ghi nhận tỷ lệ thành công rất cao của các cuộc tấn công kiểu này, cùng với hàng trăm “kỹ năng” độc hại.

Vấn đề cốt lõi không chỉ là xác thực danh tính, mà là việc ủy quyền trong các ranh giới tin cậy.

Câu hỏi thực sự là: một agent có nên thực hiện hành động thay mặt người dùng hay không, trong phạm vi nào, trong bao lâu, với quyền hạn gì và có thể kiểm tra lại ra sao.

Trong thế giới A2A, niềm tin không phải là trạng thái có hoặc không. Nó là thứ thay đổi theo ngữ cảnh.

Agent cần được cấp quyền theo phạm vi cụ thể, có thể điều chỉnh linh hoạt, với nguyên tắc quyền tối thiểu và khả năng kiểm tra lại mọi hành động.

4. Lớp thanh toán dành riêng cho agent

Agent cần có khả năng thanh toán một cách tự nhiên, bao gồm việc trả tiền cho agent khác, trả tiền cho con người và mua dịch vụ.

Một số giao thức mới đã xuất hiện để hỗ trợ điều này, nhưng chưa rõ đâu sẽ là tiêu chuẩn chung.

Dù vậy, yêu cầu cốt lõi là không thể tránh khỏi.

Nếu agent trở thành một chủ thể kinh tế thực sự, chúng phải có khả năng giao dịch mà không cần con người can thiệp liên tục.

Và vì tiền là nơi niềm tin dễ bị phá vỡ nhất, các giao dịch cần đi kèm với khả năng kiểm tra, phân quyền rõ ràng và bằng chứng minh bạch.

Nếu thiếu lớp này, agent có thể suy nghĩ và hành động, nhưng không thể tham gia vào nền kinh tế thực.

5. Thị trường có thể kiếm tiền

Giả sử agent đã có thể giao tiếp, xác thực và thanh toán, thì câu hỏi tiếp theo là: làm sao để agent và con người tìm thấy nhau?

Câu trả lời là một thị trường trao đổi.

Một nền kinh tế thực sự không được xây dựng trên danh sách công cụ, mà trên một nền tảng nơi các agent và công cụ có thể được khám phá, được tin tưởng, được sử dụng và được trả tiền.

Thị trường cũng cần xử lý các yếu tố tài chính phía sau như dòng tiền vào, dòng tiền ra và xác minh danh tính, để người xây dựng có thể tập trung vào sản phẩm.

Hiện tại, chúng ta vẫn bị giới hạn bởi ba yếu tố: trí tưởng tượng, niềm tin và động lực.

Ngay cả khi vượt qua được hai yếu tố đầu, động lực vẫn chưa đủ mạnh.

Chỉ những công ty lớn mới có đủ nguồn lực để xây dựng sản phẩm an toàn, đạt chuẩn thực tế với đầy đủ hạ tầng và tuân thủ. Nhưng chúng ta cần sự tham gia của toàn bộ cộng đồng, từ các nhóm nhỏ đến cá nhân.

Nhiều sản phẩm tốt nhất xuất phát từ nhu cầu cá nhân. Khi có thể kiếm tiền, chất lượng sẽ tăng, tốc độ cải tiến nhanh hơn và các sản phẩm ngách trở nên khả thi.

Một nền kinh tế A2A an toàn bắt đầu từ việc tạo ra động lực đúng.

6. Định nghĩa thành công: tiêu chuẩn đánh giá

Chúng ta gần như đã chạm đến A2A. Nhưng vẫn còn một câu hỏi quan trọng: một agent tốt trông như thế nào?

Phần lớn mọi người không có câu trả lời rõ ràng.

Hiện tại, thế giới agent vẫn giống như một miền hoang dã. Ai cũng đang trình diễn demo và gọi sản phẩm của mình là “agentic”, nhưng không có tiêu chuẩn chung về thành công.

Đây là lý do các tiêu chuẩn đánh giá trở nên quan trọng.

Nhiều hệ thống đánh giá hiện tại chưa phản ánh đúng thực tế vận hành. Chúng không tính đến các yếu tố như ranh giới tin cậy, tấn công chèn lệnh, công cụ không an toàn hay sự thay đổi liên tục của ngữ cảnh.

Các tiêu chuẩn đánh giá bị giới hạn bởi chính trí tưởng tượng của chúng ta.

Khi quay lại định nghĩa cơ bản của agent là sự kết hợp giữa mô hình và công cụ, không gian đánh giá trở nên rộng hơn rất nhiều. Ta có thể kiểm tra các tổ hợp khác nhau về hiệu năng, chi phí, độ an toàn và mức độ phù hợp với từng lĩnh vực.

Những tiêu chuẩn đánh giá tốt không chỉ đo lường tiến bộ mà còn mở rộng giới hạn của những gì chúng ta có thể xây dựng.

Theo thời gian, các dữ liệu tốt nhất sẽ trở thành nền tảng huấn luyện tiếp theo, còn các tiêu chuẩn tốt sẽ giúp mục tiêu trở nên rõ ràng hơn.

Vượt qua hố ngăn cách tưởng tượng

Sáu yếu tố trên không tồn tại độc lập.

Một giao thức không có hạ tầng chỉ là lý thuyết. Hạ tầng không có niềm tin sẽ không ai sử dụng. Thanh toán không có thị trường chỉ là đường dẫn vô nghĩa. Thị trường không có tiêu chuẩn đánh giá sẽ trở thành hỗn loạn.

Và tất cả những điều đó đều không có ý nghĩa nếu chúng ta vẫn không thể hình dung được thứ mình đang xây dựng.

Đó chính là cái giá thực sự của hố ngăn cách tưởng tượng.

Nó không chỉ giới hạn khả năng tưởng tượng, mà còn giới hạn những gì chúng ta xây dựng và sẵn sàng đặt cược.

Tương lai của agent sẽ không được mở ra bởi một mô hình tốt hơn, một tiêu chuẩn đánh giá tốt hơn hay một agent mạnh hơn. Nó sẽ được mở ra khi ngày càng nhiều người có thể xây dựng, tin tưởng, khám phá, kiếm tiền và đo lường những agent hữu ích trong thế giới thực.