Chi phí của AI Agent cũng đang tăng theo cấp số nhân?

Nghe bài viết:

Có một câu hỏi cực kỳ quan trọng về tương lai gần của AI mà gần như chưa ai đặt ra.

Chúng ta đều đã thấy các biểu đồ từ METR cho thấy thời lượng nhiệm vụ mà AI agent có thể thực hiện đã tăng theo cấp số nhân trong 7 năm qua. Trong khi GPT-2 chỉ có thể xử lý các tác vụ kỹ thuật phần mềm mất vài giây, thì các mô hình mới nhất hiện nay (với xác suất 50%) có thể xử lý các tác vụ mất vài giờ đối với con người.

Khi xu hướng này chưa có dấu hiệu dừng lại, mọi người tự nhiên bắt đầu ngoại suy để dự đoán khi nào AI có thể làm được các nhiệm vụ mất một ngày, một tuần hoặc một năm của kỹ sư.

Nhưng chúng ta đang thiếu một mảnh ghép quan trọng — chi phí để thực hiện công việc đó.

Trong 7 năm qua, hệ thống AI đã tăng trưởng theo cấp số nhân. Quy mô mô hình (số lượng tham số) tăng khoảng 4.000 lần và số lần chạy trong mỗi tác vụ (token) tăng khoảng 100.000 lần. Dù đã có nhiều cải tiến về hiệu suất, hoàn toàn có khả năng chi phí để đạt hiệu suất đỉnh (như METR đo) cũng đang tăng — và tăng theo cấp số nhân.

Điều này có thể không quá tệ. Ví dụ, nếu khả năng của AI tăng 3 lần mỗi năm và chi phí cũng tăng 3 lần mỗi năm, thì chi phí tương đối so với con người vẫn giữ nguyên. Hoặc nếu chi phí tăng chậm hơn, AI sẽ ngày càng rẻ hơn so với con người.

Nhưng nếu chi phí tăng nhanh hơn khả năng thì sao? Khi đó, AI sẽ ngày càng kém cạnh tranh về chi phí. Xu hướng METR có thể gây hiểu nhầm — nó phản ánh khả năng tối đa, nhưng một phần tiến bộ đến từ việc chi nhiều compute hơn, giống như Formula 1: thể hiện cái có thể làm, không phải cái thực tế.

Câu hỏi quan trọng là: chi phí “theo giờ” của AI agent đang thay đổi như thế nào theo thời gian?

Chi phí theo giờ được định nghĩa là chi phí để hoàn thành một tác vụ ở mức 50% thành công chia cho thời gian tác vụ đó (theo chuẩn con người). Ví dụ, nếu Claude 4.1 Opus làm được nhiệm vụ 2 giờ với 50% thành công, thì chi phí chia cho 2 sẽ là giá theo giờ.

Điều đáng nói là rất ít người đặt câu hỏi này. Một số người nghĩ tổng chi phí giữ nguyên → chi phí theo giờ giảm. Một số khác nghĩ chi phí cũng tăng mạnh. Và đa số không biết AI agent hiện tại tốn bao nhiêu tiền mỗi giờ — vài cent, vài đô, hay hàng trăm đô?

Tôi đã hỏi METR về dữ liệu chi phí benchmark. Nhưng vấn đề là benchmark của họ đo hiệu suất tối đa, không quan tâm chi phí. Họ chạy mô hình đến khi hiệu suất “plateau” và không tối ưu chi phí.

Do đó tổng chi phí benchmark không phản ánh chi phí thực tế để đạt hiệu suất đó.

May mắn là họ có một biểu đồ giúp phân tích vấn đề này:

Biểu đồ này cho thấy mối quan hệ giữa hiệu suất và chi phí (token/compute).

Con người có đường tuyến tính — làm việc lâu hơn thì tốn tiền tương ứng. Nhưng AI có hiện tượng “diminishing returns”: càng thêm compute, hiệu suất tăng chậm dần rồi đạt plateau.

Để hiểu chi phí theo giờ, ta thêm các đường “chi phí cố định theo giờ” (slope = 1 trong log-log).

Điểm tiếp xúc giữa đường này và curve gọi là sweet spot — nơi chi phí hiệu quả nhất.

Kết quả:

  • Con người: ~120 USD/giờ
  • o3: ~40 USD/giờ
  • Grok 4 / Sonnet 3.5: ~0.4 USD/giờ

Nhưng đó là mức tốt nhất. Ở nhiều điểm, chi phí cao hơn 10–100 lần.

Ví dụ:

  • Grok 4: từ 0.4 USD → 13 USD/giờ
  • GPT-5: từ 13 USD → 120 USD/giờ
  • o3: lên tới 350 USD/giờ

Đáng chú ý: đôi khi AI còn đắt hơn con người — trong khi vẫn có xác suất thất bại 50%.

Tiếp theo là saturation point — điểm bắt đầu plateau:

Sau khi có các điểm này, ta vẽ scatter plot:

Kết quả: có tương quan dương giữa độ dài task và chi phí theo giờ.

Khi dùng saturation point:

Kết luận tương tự — chi phí tăng cùng khả năng.

Điều này cho thấy chúng ta có thể đang tiến đến điểm mà hiệu suất cao nhất trở nên không thực tế về chi phí.

Nếu xu hướng tiếp tục, dự đoán từ METR sẽ sai lệch — vì khả năng có thể đạt được nhưng chưa thể sử dụng trong thực tế.

Kết luận

  • Ít người quan tâm đến chi phí AI agent
  • Câu hỏi quan trọng nhất: chi phí theo giờ thay đổi ra sao
  • Có bằng chứng cho thấy chi phí đang tăng theo cấp số nhân
  • Chi phí theo giờ cũng có thể đang tăng
  • Một số model đã gần bằng chi phí con người
  • Xu hướng METR có thể bị “ảo” do compute tăng
  • Sẽ có khoảng cách giữa khả năng và tính kinh tế

Phụ lục

Biểu đồ này cho thấy:

  1. Tương quan giữa khả năng và chi phí vẫn giữ
  2. Model reasoning không luôn vượt model cũ
  3. Chi phí của OpenAI có thể bị ước tính cao