Mùa hè năm ngoái, tôi đã chia sẻ một bài đăng LinkedIn về cách marketer có thể phân tích hoạt động thu thập dữ liệu của OpenAI thông qua log file. Lúc đó, tôi khá bất ngờ khi thấy nhiều người quan tâm — rõ ràng cộng đồng SEO rất muốn biết chính xác các hệ thống AI như ChatGPT tương tác với website như thế nào.
Điều đó khiến tôi nghĩ: ai có nhiều dữ liệu nhất về chủ đề này? Tôi đã liên hệ với Botify — đối tác lý tưởng với một trong những tập dữ liệu log file lớn nhất thế giới. Đây là một trong những nguồn dữ liệu tốt nhất để hiểu cách ChatGPT thu thập dữ liệu website của bạn.
Phương pháp nghiên cứu
Log truy cập ghi lại mỗi lần bot hoặc người dùng truy cập website. Dù là Google, ChatGPT hay người dùng thật — mỗi lần truy cập đều được lưu lại. Đây chính là log file.
Botify thu thập và xử lý log file cho khách hàng — bao gồm nhiều doanh nghiệp lớn trong các lĩnh vực bán lẻ, thương mại điện tử, công nghệ, xuất bản nội dung, du lịch, nền tảng trung gian...
Từ tập dữ liệu này, tôi có thể phân tích chi tiết theo công cụ tìm kiếm, bot, ngành nghề… Tổng dữ liệu vượt hơn 250 tỷ log file.
Trong nghiên cứu này, chúng tôi phân tích khoảng 7 tỷ log file trong giai đoạn từ tháng 11/2024 đến tháng 3/2026, tập trung vào 3 bot của OpenAI: ChatGPT-User, GPTBot và OAI-SearchBot. :contentReference[oaicite:0]{index=0}
Tổng quan về các bot thu thập dữ liệu
Trước khi bắt đầu, cần hiểu sự khác nhau giữa các bot của OpenAI:
- ChatGPT-User: Đại diện cho hành động do người dùng khởi tạo.
- GPTBot: Bot dùng để thu thập dữ liệu phục vụ huấn luyện mô hình.
- OAI-SearchBot: Bot dùng để tìm kiếm trên web và lấy dữ liệu cho câu trả lời.
ChatGPT có dấu hiệu giảm người dùng
Khi phân tích ChatGPT-User, dữ liệu cho thấy lượng truy cập giảm mạnh kể từ tháng 12/2025.

So sánh từ 1/12/2025 đến 14/3/2026 với giai đoạn trước đó, lượng sự kiện giảm tới -28%.
1. Có thể ít người dùng ChatGPT hơn
Một khả năng là số người dùng giảm. Dữ liệu từ SimilarWeb cho thấy ChatGPT giảm từ 86.7% thị phần xuống còn 64.5%.

2. OpenAI có thể đang sử dụng dữ liệu đã lưu sẵn
Một giả thuyết khác: lưu lượng ChatGPT-User giảm vì bot tìm kiếm đang hoạt động nhiều hơn.
Nếu OpenAI đã xây dựng chỉ mục web riêng, họ không cần tải trang theo thời gian thực nữa — tương tự cách Gemini dùng dữ liệu từ Google.
OpenAI đã tăng gấp 3 lần việc thu thập dữ liệu web
Sau khi GPT-5 ra mắt, hoạt động thu thập dữ liệu tăng mạnh.

Tổng thể, hoạt động thu thập dữ liệu đã tăng gấp 3 lần kể từ tháng 8/2025.

Hoạt động tìm kiếm tăng mạnh
Bot tìm kiếm OAI-SearchBot tăng 3.5 lần sau GPT-5.

Một số ngành tăng mạnh nhất:
- Y tế: +740.94%
- Báo chí / xuất bản: +701.91%
- Nền tảng trung gian: +215.56%
- Công nghệ / phần mềm: +204.76%
- Bán lẻ / thương mại điện tử: +194.96%

Bot huấn luyện cũng tăng mạnh
GPTBot tăng 2.9 lần sau GPT-5.

OpenAI hiện ưu tiên tìm kiếm hơn huấn luyện
- Trước GPT-5: 0.95
- Sau GPT-5: 1.14
Điều này cho thấy OpenAI đang chuyển sang sử dụng web như nguồn tri thức chính.
Tuy nhiên, mức độ này phụ thuộc nhiều vào ngành.
- Báo chí: thiên về tìm kiếm
- Y tế: thiên về huấn luyện
- Bán lẻ: thiên về huấn luyện
Google vẫn vượt xa OpenAI

Trong 1 tháng:
- Google: 18.2 tỷ lượt thu thập dữ liệu
- OpenAI: 887 triệu (~4%)
Dù vậy, khoảng cách đang thu hẹp nhanh.
Kết luận
OpenAI đang thu thập dữ liệu và huấn luyện mạnh hơn bao giờ hết, dù lượng sử dụng ChatGPT có biến động.
Tìm kiếm đang ngày càng quan trọng hơn — nhưng phụ thuộc vào từng lĩnh vực.
Cách duy nhất để hiểu AI tương tác với website của bạn là phân tích log file nội bộ.