Khoa học đằng sau cách AI chọn nguồn

Nghe bài viết:

Trong Khoa học về cách AI chú ý, tôi đã phân tích 1,2 triệu phản hồi ChatGPT để hiểu chính xác cách AI đọc một trang. Đây là Phần 2.

Nếu Phần 1 cho bạn biết AI nhìn vào đâu trên một trang, thì phần này sẽ cho bạn biết những trang nào AI thường xuyên xem xét.

Dữ liệu làm rõ:

  • Tại sao ~30 domain chiếm 67% trích dẫn trong mỗi chủ đề
  • Cấu trúc trang giúp được trích dẫn trên hơn 50 truy vấn khác nhau so với cấu trúc chỉ được trích dẫn một lần
  • Liệu “đường dốc ski ramp” từ Phần 1 dốc hơn hay thoải hơn trong ngành của bạn

Người đăng ký trả phí sẽ nhận được checklist để tích hợp kết quả nghiên cứu vào workflow.

Trong số các trang xếp hạng #1 trên Google, 43,2% được ChatGPT trích dẫn. Con số này cao hơn 3,5 lần so với các trang nằm ngoài top 20.

ChatGPT truy xuất nhiều hơn khoảng 6 lần số trang mà nó thực sự trích dẫn.

Trong nghiên cứu trên 548.534 trang được truy xuất và 15.000 prompt, AirOps phát hiện:

  • 85% các trang được truy xuất không bao giờ được trích dẫn.
  • 1/3 các trang được trích dẫn đến từ các truy vấn fan-out, và 95% trong số đó có lượng tìm kiếm bằng 0.
  • Trong các trang xếp hạng #1 trên Google, 43,2% được trích dẫn — cao hơn 3,5 lần so với các trang ngoài top 20.

Xếp hạng tốt giúp ích, nhưng không đảm bảo được trích dẫn.

AirOps hiển thị các truy vấn fan-out này để các team có thể thấy toàn bộ hành trình tìm kiếm mà ChatGPT sử dụng để xây dựng câu trả lời và hành động dựa trên đó.

Đọc báo cáo đầy đủ

1/ khoảng 30 domain chiếm 67% trích dẫn AI trong mỗi chủ đề

Tìm kiếm truyền thống là một trò chơi “winner-takes-all”. Kết quả top 1 nhận được lượng click vượt trội so với vị trí thứ hai. Vậy điều này có đúng với câu trả lời của ChatGPT không? Phân bổ các domain được trích dẫn mang tính “dân chủ” hay “độc quyền”?

Phương pháp:

  1. Tính tỷ trọng trích dẫn theo domain trong từng ngành
  2. Tính tổng tỷ trọng tích lũy của top 10% domain
  3. Dữ liệu: 21.482 dòng trích dẫn ChatGPT, 670 domain duy nhất, 2.344 URL duy nhất, 127 prompt duy nhất

Kết quả: Top 10 domain chiếm 46% tổng số trích dẫn trong một chủ đề. Top 30 domain chiếm 67%.

Phân bổ trích dẫn của AI ít tập trung hơn so với SEO truyền thống, nhưng vẫn cực kỳ cao:

  • Trên thực tế, chỉ có khoảng ~30 “ghế” (domain) trong bảng trích dẫn của bất kỳ chủ đề nào. Tất cả những domain còn lại gần như vô hình.
  • Ví dụ: storylane.io xuất hiện như một nguồn được trích dẫn trong 102 prompt riêng biệt (các câu hỏi khác nhau gửi tới ChatGPT), reprise.com xuất hiện trong 98 prompt. Mặc dù reprise.com có tổng số lượt trích dẫn nhiều hơn (1.369 so với 968 của storylane.io), storylane.io lại xuất hiện trong nhiều loại câu hỏi đa dạng hơn.

Chúng tôi đã xác nhận các kết quả này trong các ngành so sánh sản phẩm (SaaS, tư vấn tài chính). Tuy nhiên, bạn sẽ thấy bên dưới rằng mô hình này yếu hơn trong healthcare và các chủ đề web mở, nơi không có domain nào thống trị. Đáng chú ý, ngành giáo dục nhận được nhiều trích dẫn AI nhất trong tất cả các ngành chúng tôi nghiên cứu.

những gì dữ liệu ngành cho thấy:

Các kết quả trên đến từ các ngành so sánh sản phẩm (SaaS, tư vấn tài chính), nhưng mô hình yếu hơn trong healthcare và web mở, nơi không có domain nào thống trị, và mạnh hơn trong ngành giáo dục.

Giáo dục là mô hình “winner-take-most”: top 10% domain chiếm 59,5% tổng số trích dẫn.

  • Nếu bạn chưa nằm trong top 5–10 domain trong ngành giáo dục, việc đạt được độ phủ trích dẫn là cực kỳ khó khăn
  • Chỉ riêng tefl.org đã trả lời 102 prompt khác nhau và chiếm 18,75% tổng trích dẫn ngành giáo dục. Ba domain tiếp theo (internationalteflacademy.com 7,83%, gooverseas.com 5,87%, reddit.com 5,22%) khiến top 3 kiểm soát khoảng 32% tổng trích dẫn.

Crypto là ngành tập trung cao thứ hai với 43% cho top 10% domain.

  • Một nhóm nhỏ các trang tài liệu kỹ thuật và trang so sánh (alchemy.com, quicknode.com, chainstack.com) chiếm ưu thế trong các truy vấn về Solana RPC và hạ tầng.
  • Tính kỹ thuật cao của các truy vấn Solana khiến số lượng nguồn đáng tin cậy rất ít; khi một domain đã có được niềm tin trong niche này, nó sẽ chiếm phần lớn thị phần.

Tài chính ở mức 29,4% cho top 10% domain.

  • Mức độ tập trung phụ thuộc vào loại truy vấn: các trang tìm kiếm cố vấn tài chính (forfiduciary.com với 139 prompt riêng biệt, smartasset.com với 168 prompt) chiếm ưu thế trong truy vấn theo thành phố.
  • Tuy nhiên, long-tail query về sản phẩm tài chính làm giảm mức độ tập trung tổng thể.

Healthcare là ngành ít tập trung nhất với 13% cho top 10% domain.

  • Không có domain nào thống trị. Người mới vẫn có cơ hội thực tế để đạt độ phủ trích dẫn.
  • Bề mặt trích dẫn được phân tán trên hàng trăm domain, mỗi domain bao phủ một phần nhỏ của các chủ đề như telehealth, tuân thủ HIPAA, và ứng dụng healthcare.

CRM/SaaS và HR Tech cũng phân tán tương tự (16,1% và 14,4% cho top 10%).

  • Đây là các danh mục phần mềm nhiều sản phẩm, nơi hàng chục trang so sánh, nền tảng review và trang vendor chia nhau lượng trích dẫn.
  • monday.com dẫn đầu CRM nhưng chỉ chiếm 2,88% tổng trích dẫn (37 prompt riêng biệt). Một thị trường cạnh tranh thực sự mở.

kết luận chính:

1/ Độ phủ chủ đề quan trọng hơn authority của domain. Một trang so sánh được cấu trúc tốt (learn.g2.com: 65 prompt riêng biệt, 495 trích dẫn) vẫn có thể vượt qua toàn bộ portfolio nội dung của một thương hiệu lớn. Mục tiêu không phải là xếp hạng cho một truy vấn, mà là trả lời một cụm truy vấn.

2/ Mức độ tập trung phản ánh độ trưởng thành của ngành. Phân mảnh là cơ hội. Giáo dục và Crypto có không gian truy vấn hẹp, được định nghĩa rõ ràng, nơi một số nguồn uy tín đã “khóa” niềm tin. Healthcare và CRM là các ngành rộng, phân mảnh, nơi không có domain nào thống trị. Sự phân mảnh đó chính là cơ hội của bạn.

3/ Độ phủ trích dẫn (số lượng prompt khác nhau mà một domain trả lời) là chỉ số chiến lược hữu ích hơn tổng số trích dẫn. Trong các ngành có mức tập trung thấp như Healthcare và CRM, một chiến lược 30–50 trang nội dung có thể cạnh tranh thực tế để giành “ghế” trong bảng trích dẫn. Trong các ngành tập trung cao như Giáo dục và Crypto, con đường hẹp hơn: trở thành nguồn tốt nhất trong một sub-topic cụ thể, hoặc chấp nhận cạnh tranh ở phần còn lại.

2/ lợi thế trích dẫn bắt đầu từ 10.000 từ

Trong tìm kiếm truyền thống, số lượng từ và độ dài trang có phần tương quan với thứ hạng, miễn là chất lượng nội dung đủ tốt. Tôi tiếp tục đặt câu hỏi: điều này có đúng với việc xuất hiện trong câu trả lời của ChatGPT không?

Phương pháp:

  1. Đo độ dài văn bản thô của mỗi trang được trích dẫn
  2. Chia độ dài thành 7 nhóm
  3. Với mỗi nhóm, tính số trích dẫn trung bình trên mỗi trang

Kết quả: Nội dung dài hơn thực sự có tương quan với nhiều trích dẫn hơn, nhưng tồn tại một ngưỡng trần.

Bước nhảy từ 5.000 → 10.000 ký tự là bước tăng lớn nhất — gần gấp 2 lần. Các trang trên 20.000 ký tự có trung bình 10,18 lượt trích dẫn, so với 2,39 đối với các trang dưới 500 ký tự.

những gì dữ liệu ngành cho thấy:

Hiệu ứng độ dài phụ thuộc vào từng ngành: ngành tài chính đảo ngược hoàn toàn xu hướng này. Các trang tài chính có nhiều trích dẫn có độ dài trung bình 1.783 từ, so với 2.084 từ ở các trang ít được trích dẫn — tương đương mức hiệu quả 0,86x.

Các nguồn ngắn gọn nhưng có độ tin cậy cao như bảng lãi suất, bảng dữ liệu và tóm tắt quy định hoạt động tốt hơn các bài hướng dẫn dài trong ngành này. Quy tắc 10.000 ký tự lại phù hợp với nội dung SaaS và editorial.

Cụ thể hơn:

  • Các trang tài chính có tỷ lệ trích dẫn cao thường ngắn hơn so với các trang có ít trích dẫn
  • Nội dung dạng bảng, dữ liệu và thông tin cô đọng có hiệu suất cao hơn
  • Hướng dẫn dài không phải lúc nào cũng là chiến lược tối ưu

Ngược lại, trong SaaS và nội dung editorial:

  • Nội dung dài, có cấu trúc tốt vượt trội rõ rệt
  • Các trang vượt ngưỡng ~10.000 ký tự bắt đầu có lợi thế mạnh
  • Đây là điểm “bẻ cong” nơi hiệu quả tăng nhanh nhất

Kết luận quan trọng:

  • Không tồn tại một “độ dài chuẩn” cho mọi ngành
  • Chiến lược nội dung phải phù hợp với loại truy vấn và intent
  • AI không chỉ ưu tiên nội dung dài — mà ưu tiên nội dung phù hợp với mục đích tìm kiếm

Tóm lại:

  • 10.000 ký tự là ngưỡng quan trọng trong nhiều ngành (đặc biệt SaaS và blog)
  • Trong các ngành thiên về dữ liệu như tài chính, nội dung ngắn lại có lợi thế
  • Chiến lược nội dung cần dựa trên hành vi truy vấn, không chỉ dựa trên SEO truyền thống