Software đang “ăn” thế giới (lần này là thật)

AI Siddharth 05/05/2026 21:03 54

so-260505210924

Phần mềm đã ăn giao diện. Giờ nó đang ăn luôn công việc

Năm 2011, software “ăn” thế giới. Ít nhất đó là điều Marc Andreessen nói. Nhưng nếu điều đó đúng, tại sao Bay Area vẫn tồn tại? Nếu software thực sự nuốt chửng mọi thứ, chẳng phải chúng ta đã chuyển hết đến New York hay Miami rồi sao?

Hãy nhìn vào thứ mà software thực sự “ăn”: ngân hàng có app, bán lẻ có website, bệnh viện có hệ thống EHR, taxi được gọi bằng vài cú chạm thay vì gọi điện lúc 2 giờ sáng khi bạn thậm chí không nhớ mình đang ở đâu.

Software đã ăn giao diện — nhưng công việc thực sự thì vẫn do con người làm.

Một khách hàng gọi về tranh chấp hóa đơn: phần mềm định tuyến cuộc gọi, hiển thị thông tin tài khoản, ghi lại kết quả. Nhưng người nghe, đánh giá chính sách, quyết định xử lý — vẫn là con người.

Trong 15 năm qua, software làm tốt phần “hạ tầng”, còn con người vẫn làm công việc thực tế.

Giờ thì AI có thể làm chính công việc đó.

Một cuộc gọi support trở thành vòng lặp agent: nhận diện giọng nói, gọi API lấy dữ liệu, kiểm tra policy, ra quyết định, hoàn tiền, trả lời bằng text-to-speech.

Một claim bảo hiểm trở thành workflow tự động: đọc tài liệu, kiểm tra coverage, phát hiện fraud, tính toán, xử lý thanh toán — tất cả chạy bằng code.

Một task coding có thể là 30 vòng đọc file → sửa code → chạy test → sửa tiếp — không cần con người.

Mỗi workflow này thực chất là phần mềm chạy các tool-call trong vòng lặp.

Với hệ thống inference, một agent support và một agent code trông giống nhau: đều là code.

Software đang “ăn” thế giới lần nữa — và lần này inference đang “ăn” công việc.

Các workload bị thay thế là những thứ thực chất chỉ là:

chuyển trạng thái
xử lý ngoại lệ
được “ngụy trang” thành công việc con người

Ví dụ: support, insurance, loan processing, healthcare admin, legal analysis.

Thị trường inference hiện đã xử lý hàng chục nghìn tỷ token mỗi ngày — và đang tăng theo cấp số nhân.

Những loại công việc sẽ bị “ăn”

Một công việc sẽ bị chuyển thành code nếu nó thực chất chỉ là:

nhận input
so sánh rule
phân loại
thực hiện action
xử lý case ngoại lệ

Nếu input là text/voice/document, state nằm trong database, output là update hoặc API call — thì nó có thể trở thành agent loop.

Yếu tố quan trọng khác là verification.

Trong coding: test pass hoặc fail → loop dài.

Trong thế giới vật lý (robotics, lab): verification chậm → loop bị giới hạn.

Khi agent support xử lý ticket: kiểm tra API thành công chưa.

Khi agent loan xử lý hồ sơ: kiểm tra compliance pass chưa.

Phần lớn mọi người đánh giá thấp lượng inference tiêu tốn — vì họ nghĩ là “1 prompt → 1 response”.

Thực tế: một cuộc gọi AI là cả hệ thống nhiều model chạy song song.

Một cuộc gọi 8 phút có thể chỉ ~3k token transcript, nhưng orchestration có thể dùng ~40k token.

“Một cuộc gọi AI” thực chất là stack inference đa model chạy liên tục.

Những thứ đang nổi lên

Những category phía trên đã chạy production. Nhưng có một lớp thị trường thứ hai đang bắt đầu chuyển đổi.

Ví dụ: legal.

Trước đây AI legal chỉ tìm kiếm và tóm tắt. Giờ nó có thể:

đọc data room
đối chiếu tài liệu
phát hiện inconsistency
soạn memo
đề xuất chỉnh sửa

Tức là chuyển từ “tìm thông tin” sang “làm việc thực sự”.

Các ngành tương tự: finance, accounting, supply chain, government.

Đây là nhóm sẽ chuyển sang code trong vài năm tới.

Token ladder

Mở một codebase và nhờ AI fix bug:

Ban đầu nó đọc ~60k token context.

Sau đó loop:

đọc test
phân tích
sửa code
chạy test
sửa tiếp

30 vòng → ~900k token.

Output cuối cùng có thể chỉ ~500 token.

Phần lớn token dùng cho “quá trình suy nghĩ”.

So với chat đơn giản (~900 token), agent loop tăng chi phí lên hàng nghìn lần.

Công thức:

tokens mỗi task = context ban đầu + (số bước × token mỗi bước)

Càng nhiều bước → càng tốn token.

Tại sao ladder ngày càng cao

METR đo khả năng model xử lý task dài:

GPT-4: ~4 phút
Claude 3.5: ~11 phút
Claude 3.7: ~1 giờ
o3: ~2 giờ
GPT-5: ~3.5 giờ
Claude Opus 4.6: ~12 giờ

Tăng ~180x trong 2 năm.

Task dài hơn → loop dài hơn → token nhiều hơn.

Inference tăng không tuyến tính.

Ví dụ:

support: 3k → 10k → 40k token
coding: 10k → 100k → 1M+

Chi phí/token tăng, nhưng giá trị/token tăng nhanh hơn → cost hiệu quả giảm.

Điều này mở ra workload mới.

Số liệu:

OpenAI: 15B token/phút
Google: tăng 50x/năm
Anthropic: ~$30B revenue

Tăng trưởng đến từ:

nhiều user hơn
nhiều task hơn
nhiều token mỗi task hơn

Cách đọc bản đồ

Hai câu hỏi quan trọng:

Workflow có giống coding không?
Volume lớn không?

Workflow càng:

có cấu trúc rõ
logic deterministic
verification rõ ràng

→ càng dễ bị agent hóa.

Opportunity lớn nhất:

healthcare admin
customer support
insurance

Ở đầu kia: chip design, formal verification → ít user nhưng giá trị cao.

Middle band: legal, finance, accounting → sắp bùng nổ.

Lợi thế lâu dài không phải model — mà là dữ liệu workflow thực tế.

Inference đang ăn thế giới

Software từng ăn distribution: website, app, CRM.

Nhưng công việc vẫn do con người làm.

Giờ công việc trở thành software:

đọc
suy luận
gọi tool
verify
lặp lại

Mỗi interaction trở thành một agent loop.

Mỗi task trở thành một chuỗi inference.

Software từng “ăn” thế giới bằng giao diện.

Lần này, nó có thể “ăn” luôn công việc bên dưới.

#AI #Automation #Generative AI #AI Economy #AI Workflow #AI Development