
Phần mềm đã ăn giao diện. Giờ nó đang ăn luôn công việc
Năm 2011, software “ăn” thế giới. Ít nhất đó là điều Marc Andreessen nói. Nhưng nếu điều đó đúng, tại sao Bay Area vẫn tồn tại? Nếu software thực sự nuốt chửng mọi thứ, chẳng phải chúng ta đã chuyển hết đến New York hay Miami rồi sao?
Hãy nhìn vào thứ mà software thực sự “ăn”: ngân hàng có app, bán lẻ có website, bệnh viện có hệ thống EHR, taxi được gọi bằng vài cú chạm thay vì gọi điện lúc 2 giờ sáng khi bạn thậm chí không nhớ mình đang ở đâu.
Software đã ăn giao diện — nhưng công việc thực sự thì vẫn do con người làm.
Một khách hàng gọi về tranh chấp hóa đơn: phần mềm định tuyến cuộc gọi, hiển thị thông tin tài khoản, ghi lại kết quả. Nhưng người nghe, đánh giá chính sách, quyết định xử lý — vẫn là con người.
Trong 15 năm qua, software làm tốt phần “hạ tầng”, còn con người vẫn làm công việc thực tế.
Giờ thì AI có thể làm chính công việc đó.
Một cuộc gọi support trở thành vòng lặp agent: nhận diện giọng nói, gọi API lấy dữ liệu, kiểm tra policy, ra quyết định, hoàn tiền, trả lời bằng text-to-speech.
Một claim bảo hiểm trở thành workflow tự động: đọc tài liệu, kiểm tra coverage, phát hiện fraud, tính toán, xử lý thanh toán — tất cả chạy bằng code.
Một task coding có thể là 30 vòng đọc file → sửa code → chạy test → sửa tiếp — không cần con người.
Mỗi workflow này thực chất là phần mềm chạy các tool-call trong vòng lặp.
Với hệ thống inference, một agent support và một agent code trông giống nhau: đều là code.
Software đang “ăn” thế giới lần nữa — và lần này inference đang “ăn” công việc.
Các workload bị thay thế là những thứ thực chất chỉ là:
- chuyển trạng thái
- xử lý ngoại lệ
- được “ngụy trang” thành công việc con người
Ví dụ: support, insurance, loan processing, healthcare admin, legal analysis.
Thị trường inference hiện đã xử lý hàng chục nghìn tỷ token mỗi ngày — và đang tăng theo cấp số nhân.
Những loại công việc sẽ bị “ăn”
Một công việc sẽ bị chuyển thành code nếu nó thực chất chỉ là:
- nhận input
- so sánh rule
- phân loại
- thực hiện action
- xử lý case ngoại lệ
Nếu input là text/voice/document, state nằm trong database, output là update hoặc API call — thì nó có thể trở thành agent loop.
Yếu tố quan trọng khác là verification.
Trong coding: test pass hoặc fail → loop dài.
Trong thế giới vật lý (robotics, lab): verification chậm → loop bị giới hạn.
Khi agent support xử lý ticket: kiểm tra API thành công chưa.
Khi agent loan xử lý hồ sơ: kiểm tra compliance pass chưa.
Phần lớn mọi người đánh giá thấp lượng inference tiêu tốn — vì họ nghĩ là “1 prompt → 1 response”.
Thực tế: một cuộc gọi AI là cả hệ thống nhiều model chạy song song.
Một cuộc gọi 8 phút có thể chỉ ~3k token transcript, nhưng orchestration có thể dùng ~40k token.
“Một cuộc gọi AI” thực chất là stack inference đa model chạy liên tục.
Những thứ đang nổi lên
Những category phía trên đã chạy production. Nhưng có một lớp thị trường thứ hai đang bắt đầu chuyển đổi.
Ví dụ: legal.
Trước đây AI legal chỉ tìm kiếm và tóm tắt. Giờ nó có thể:
- đọc data room
- đối chiếu tài liệu
- phát hiện inconsistency
- soạn memo
- đề xuất chỉnh sửa
Tức là chuyển từ “tìm thông tin” sang “làm việc thực sự”.
Các ngành tương tự: finance, accounting, supply chain, government.
Đây là nhóm sẽ chuyển sang code trong vài năm tới.
Token ladder
Mở một codebase và nhờ AI fix bug:
Ban đầu nó đọc ~60k token context.
Sau đó loop:
- đọc test
- phân tích
- sửa code
- chạy test
- sửa tiếp
30 vòng → ~900k token.
Output cuối cùng có thể chỉ ~500 token.
Phần lớn token dùng cho “quá trình suy nghĩ”.
So với chat đơn giản (~900 token), agent loop tăng chi phí lên hàng nghìn lần.
Công thức:
tokens mỗi task = context ban đầu + (số bước × token mỗi bước)
Càng nhiều bước → càng tốn token.
Tại sao ladder ngày càng cao
METR đo khả năng model xử lý task dài:
- GPT-4: ~4 phút
- Claude 3.5: ~11 phút
- Claude 3.7: ~1 giờ
- o3: ~2 giờ
- GPT-5: ~3.5 giờ
- Claude Opus 4.6: ~12 giờ
Tăng ~180x trong 2 năm.
Task dài hơn → loop dài hơn → token nhiều hơn.
Inference tăng không tuyến tính.
Ví dụ:
- support: 3k → 10k → 40k token
- coding: 10k → 100k → 1M+
Chi phí/token tăng, nhưng giá trị/token tăng nhanh hơn → cost hiệu quả giảm.
Điều này mở ra workload mới.
Số liệu:
- OpenAI: 15B token/phút
- Google: tăng 50x/năm
- Anthropic: ~$30B revenue
Tăng trưởng đến từ:
- nhiều user hơn
- nhiều task hơn
- nhiều token mỗi task hơn
Cách đọc bản đồ
Hai câu hỏi quan trọng:
- Workflow có giống coding không?
- Volume lớn không?
Workflow càng:
- có cấu trúc rõ
- logic deterministic
- verification rõ ràng
→ càng dễ bị agent hóa.
Opportunity lớn nhất:
- healthcare admin
- customer support
- insurance
Ở đầu kia: chip design, formal verification → ít user nhưng giá trị cao.
Middle band: legal, finance, accounting → sắp bùng nổ.
Lợi thế lâu dài không phải model — mà là dữ liệu workflow thực tế.
Inference đang ăn thế giới
Software từng ăn distribution: website, app, CRM.
Nhưng công việc vẫn do con người làm.
Giờ công việc trở thành software:
- đọc
- suy luận
- gọi tool
- verify
- lặp lại
Mỗi interaction trở thành một agent loop.
Mỗi task trở thành một chuỗi inference.
Software từng “ăn” thế giới bằng giao diện.
Lần này, nó có thể “ăn” luôn công việc bên dưới.