Tôi đã không còn bị giới hạn sử dụng của Claude — 10 thay đổi tôi đã áp dụng

AI kaize 23/04/2026 22:22 193

Nghe bài viết:

Hầu hết mọi người đổ lỗi cho Claude vì giới hạn quá nghiêm ngặt. Tôi cũng từng như vậy.

Gần đây tôi nhận ra Claude không tính số lượng tin nhắn — nó tính token. Điều bạn cần làm là sử dụng token một cách hợp lý. Nhưng không phải ai cũng biết cách, và kết quả là lãng phí rất nhiều token và tiền bạc.

Tôi đã tìm hiểu rất sâu và tổng hợp lại những thói quen tốt nhất giúp bạn tiết kiệm rất nhiều token.

1. Chỉnh sửa prompt — đừng gửi thêm tin nhắn

Khi Claude không hiểu đúng ý bạn, bạn thường có xu hướng gửi thêm:

“Không, ý tôi là…”
“Không phải cái tôi muốn…”

Đừng làm vậy!

Mỗi tin nhắn mới đều được thêm vào lịch sử hội thoại. Claude sẽ đọc lại toàn bộ mỗi lần — tiêu tốn token cho những ngữ cảnh không cần thiết.

Chi phí token mỗi tin nhắn = toàn bộ lịch sử + tin nhắn mới

Tổng = S × N(N+1) / 2
(S = token trung bình mỗi lượt, N = số tin nhắn)

Với ~500 token mỗi lượt:

5 tin nhắn: 7.5K token
10 tin nhắn: 27.5K token
20 tin nhắn: 105K token
30 tin nhắn: 232K token

Tin nhắn thứ 30 đắt hơn gấp 31 lần tin nhắn đầu tiên.

Thay vào đó: chỉnh sửa prompt ban đầu → sửa → regenerate. Nội dung cũ sẽ bị thay thế, không bị cộng dồn.

Sửa prompt, đừng nuôi lịch sử hội thoại

2. Bắt đầu chat mới sau mỗi 15–20 tin nhắn

Như đã thấy, chi phí token tăng theo từng tin nhắn.

Lý tưởng nhất: tạo chat mới sau 15–20 tin.

Hãy tưởng tượng một cuộc chat có hơn 100 tin nhắn. Với ~500 token mỗi lượt, bạn đã tiêu tốn hơn 2.5 triệu token — phần lớn chỉ để đọc lại lịch sử.

Một developer từng đo được: 98.5% token bị dùng để đọc lại lịch sử, chỉ 1.5% dùng để tạo output.

Bài viết của Aniket Parihar trên LinkedIn

Khi chat quá dài → yêu cầu Claude tóm tắt → copy → tạo chat mới → dán làm prompt đầu tiên.

3. Gom câu hỏi vào một prompt

Nhiều người nghĩ tách câu hỏi sẽ tốt hơn. Thực tế thường ngược lại.

3 prompt riêng = 3 lần load context
1 prompt nhiều yêu cầu = 1 lần load

Bạn tiết kiệm token gấp đôi: ít load lại context hơn và tránh chạm giới hạn sớm.

Thay vì:
“Summarize this article”
“Now list the main points”
“Now suggest a headline”

Hãy viết:
“Summarize this article, list the main points, and suggest a headline.”

Bonus: kết quả thường tốt hơn vì Claude thấy toàn bộ yêu cầu ngay từ đầu.

Ba câu hỏi. Một prompt. Luôn luôn!

4. Upload file thường dùng vào Projects

Nếu bạn upload cùng một file PDF vào nhiều chat, Claude sẽ tokenize lại mỗi lần.

Hãy dùng Projects:

Upload một lần → được cache → mọi chat trong project dùng lại mà không tốn token.

Nếu bạn làm việc với hợp đồng, brief, tài liệu dài — cách này giúp giảm chi phí đáng kể.

5. Thiết lập Memory & User Preferences

Mỗi chat mới không có context sẽ tốn 3–5 tin nhắn để setup:

“Tôi là marketer, viết văn phong casual…”

Câu “Act as…” lặp lại liên tục = lãng phí token.

Hãy lưu vào Settings → Memory & User Settings để Claude tự áp dụng cho mọi chat.

6. Tắt các tính năng không dùng

Web search, connectors, Explore mode — đều tiêu tốn token dù bạn không cần.

Viết nội dung? Hãy tắt Search and Tools.

Advanced Thinking cũng tốn token — chỉ bật khi cần.

Nguyên tắc: nếu bạn không chủ động bật → hãy tắt.

7. Dùng Haiku cho tác vụ đơn giản

Kiểm tra ngữ pháp, brainstorm, format, dịch nhanh — Haiku làm tốt với chi phí thấp hơn nhiều.

Chọn model đúng là quyết định quan trọng nhất mỗi ngày.

Haiku cho việc nhẹ → tiết kiệm 50–70% ngân sách cho việc quan trọng hơn.

Mô hình tư duy:
Haiku → nhanh, rẻ
Sonnet → công việc chính
Opus → suy nghĩ sâu

Bạn không cần model mạnh cho việc đơn giản.

8. Phân bổ công việc trong ngày

Claude dùng cửa sổ trượt 5 giờ, không reset lúc nửa đêm.

Tin nhắn lúc 9h sáng sẽ hết hiệu lực lúc 2h chiều.

Nếu bạn dùng hết limit buổi sáng, bạn đang lãng phí phần còn lại trong ngày.

Chia ngày thành 2–3 phiên: sáng, chiều, tối.

Khi quay lại, limit đã “reset” một phần.

9. Làm việc ngoài giờ cao điểm

Từ 26/03/2026: Claude tiêu tốn limit nhanh hơn trong giờ cao điểm:

5:00–11:00 AM Pacific / 8:00–14:00 Eastern (ngày thường)

Cùng một query, nhưng trong giờ cao điểm sẽ tốn limit hơn.

Chạy task nặng vào buổi tối hoặc cuối tuần giúp kéo dài usage.

Nếu bạn ở ngoài Mỹ, hãy tự quy đổi theo múi giờ.

10. Bật Extra Usage như một “bảo hiểm”

Người dùng Pro, Max có thể bật Overage trong Settings → Usage.

Khi hết limit, Claude không chặn mà chuyển sang trả phí theo mức API.

Bạn có thể đặt giới hạn chi tiêu để tránh phát sinh ngoài ý muốn.

Đây không phải để tiết kiệm token — mà để không bị gián đoạn công việc.

Kết luận

Ban đầu sẽ khó áp dụng tất cả, nhưng khi thành thói quen, bạn gần như không còn chạm giới hạn.

Thậm chí bạn có thể hạ gói — vẫn đủ token dùng.

Claude không đếm tin nhắn. Nó đếm token.

#AI #Claude #AI Tools #Claude Code #AI Development