Khoa học về cách AI chú ý

Nghe bài viết:

 

Tuần này, tôi chia sẻ kết quả phân tích từ 1,2 triệu phản hồi của ChatGPT để trả lời câu hỏi: làm thế nào để tăng khả năng nội dung của bạn được trích dẫn.

Trong 20 năm qua, SEO thường viết các “ultimate guide” để giữ người đọc ở lại trang. Chúng ta viết intro dài, kéo insight xuyên suốt bài và build cao trào đến CTA cuối cùng.

Dữ liệu cho thấy phong cách này không tối ưu cho AI.

Sau khi phân tích 1,2 triệu trích dẫn ChatGPT đã xác thực, tôi phát hiện một pattern cực kỳ ổn định với P-Value = 0.0: “ski ramp”. ChatGPT chú ý không đồng đều — tập trung mạnh vào 30% nội dung đầu tiên. Ngoài ra, tôi còn xác định được 5 đặc điểm rõ ràng của nội dung dễ được trích dẫn. Để thắng trong kỷ nguyên AI, bạn cần viết như một nhà báo.

1/ Phần nào của văn bản dễ được ChatGPT trích dẫn nhất?

Hiện chưa có nhiều nghiên cứu về việc LLM trích dẫn phần nào trong văn bản. Chúng tôi đã phân tích 18.012 trích dẫn và phát hiện phân bố “ski ramp”.

  1. 44,2% trích dẫn đến từ 30% đầu nội dung (intro). AI đọc giống nhà báo — lấy “Ai, Cái gì, Ở đâu” từ phần đầu. Nếu insight chính nằm ở đây, khả năng được trích dẫn rất cao.

  2. 31,1% trích dẫn đến từ phần giữa (30–70%). Nếu bạn chôn thông tin quan trọng ở đoạn 12 trong bài 20 đoạn, khả năng được trích dẫn thấp hơn 2,5 lần.

  3. 24,7% trích dẫn đến từ phần cuối (kết luận). AI vẫn “tỉnh” ở cuối giống con người. Nó bỏ qua footer (drop mạnh ở 90–100%), nhưng lại rất thích phần “Summary” hoặc “Conclusion” ngay trước đó.

Hai lý do chính giải thích pattern này:

  • LLM được huấn luyện trên báo chí và paper — vốn theo cấu trúc BLUF (Bottom Line Up Front). Mô hình học rằng thông tin quan trọng nhất nằm ở đầu.

  • Dù model có thể đọc tới ~1 triệu token (~700–800K từ), nó vẫn cố thiết lập “khung hiểu” càng nhanh càng tốt, rồi diễn giải phần còn lại dựa trên khung đó.

18K trên tổng 1,2M trích dẫn là đủ để rút ra kết luận. P-Value = 0.0 nghĩa là kết quả có ý nghĩa thống kê tuyệt đối. Dữ liệu được chia thành nhiều batch để kiểm chứng độ ổn định.

  • Batch 1 hơi phẳng hơn, nhưng batch 2, 3, 4 gần như giống nhau.

  • Kết luận: vì các batch sau đều lặp lại cùng pattern, dữ liệu ổn định trên toàn bộ 1,2M trích dẫn.

Dù điều này xác nhận hành vi ở cấp độ tổng thể, nó đặt ra câu hỏi mới: liệu bias này có tồn tại ở cấp đoạn văn không? Vì vậy, tôi “zoom in” xuống cấp paragraph.

Phân tích sâu 1.000 bài viết có nhiều trích dẫn cho thấy 53% trích dẫn đến từ giữa đoạn. Chỉ 24,5% đến từ câu đầu và 22,5% từ câu cuối.

ChatGPT không “lười” — nó đọc sâu.

Kết luận: bạn không cần ép đáp án vào câu đầu mỗi đoạn. ChatGPT tìm câu có “information gain” cao nhất (chứa nhiều entity và thông tin mở rộng nhất), bất kể vị trí.

Kết hợp với pattern “ski ramp”, có thể kết luận: khả năng được trích dẫn cao nhất nằm ở các đoạn trong 20% đầu trang.

2/ Điều gì khiến ChatGPT dễ trích dẫn nội dung hơn?

Chúng ta đã biết ở đâu AI thích trích dẫn — vậy điều gì khiến một đoạn nội dung có khả năng được chọn cao hơn?

Phân tích cho thấy 5 đặc điểm chính:

  1. Ngôn ngữ dứt khoát

  2. Cấu trúc hỏi – đáp mang tính hội thoại

  3. Mật độ thực thể (entity) cao

  4. Cảm xúc cân bằng

  5. Văn phong đơn giản

Ngoài ra, ở cuối bài, người dùng Premium sẽ nhận thêm 2 công cụ để áp dụng các phát hiện này: một bộ tài liệu training cho team content và một checklist cho writer.

1. Ngôn ngữ dứt khoát vs mơ hồ

Ngôn ngữ dứt khoát nghĩa là đưa ra khẳng định rõ ràng, cụ thể và có thể kiểm chứng — thay vì sử dụng các cụm từ mơ hồ như “có thể”, “thường”, “có xu hướng”.

Ví dụ:

  • Mơ hồ: “Chiến lược này có thể giúp cải thiện SEO.”

  • Dứt khoát: “Chiến lược này cải thiện SEO bằng cách tăng khả năng crawl và index.”

ChatGPT ưu tiên các câu có tính xác định cao vì chúng dễ trích xuất và tái sử dụng như một đơn vị tri thức độc lập.

Ngược lại, ngôn ngữ mơ hồ làm giảm “information gain”, khiến đoạn văn kém giá trị hơn trong việc trích dẫn.

2. Cấu trúc hỏi – đáp mang tính hội thoại

Nội dung được viết dưới dạng câu hỏi – trả lời (Q&A) có xác suất được trích dẫn cao hơn đáng kể.

Lý do rất rõ: người dùng tương tác với AI bằng câu hỏi. Khi nội dung của bạn mirror lại cấu trúc này, nó trở thành “fit tự nhiên” cho output của mô hình.

Ví dụ:

  • “Tại sao tốc độ tải trang ảnh hưởng đến SEO?”

  • “Tốc độ tải trang ảnh hưởng đến SEO vì nó tác động trực tiếp đến trải nghiệm người dùng và crawl budget.”

Các đoạn dạng này gần như đã là một “đơn vị trả lời hoàn chỉnh”, nên rất dễ được trích dẫn.

3. Mật độ thực thể (entity richness)

Các đoạn chứa nhiều entity liên quan có xu hướng được trích dẫn nhiều hơn.

Entity bao gồm:

  • Tên thương hiệu

  • Sản phẩm

  • Khái niệm kỹ thuật

  • Thuật ngữ ngành

Một câu chứa nhiều entity giúp AI hiểu rõ ngữ cảnh hơn và dễ kết nối với các kiến thức khác.

Ví dụ:

  • Thấp: “Công cụ này giúp cải thiện hiệu suất.”

  • Cao: “Google Search Console giúp cải thiện SEO bằng cách cung cấp dữ liệu crawl, index và truy vấn tìm kiếm.”

Entity càng cụ thể → khả năng được trích dẫn càng cao.

4. Cảm xúc cân bằng

Nội dung quá tiêu cực hoặc quá tích cực đều có xu hướng ít được trích dẫn hơn.

AI ưu tiên các đoạn có tone trung lập hoặc cân bằng, vì chúng mang tính thông tin hơn là ý kiến.

Điều này phù hợp với cách mô hình được huấn luyện — ưu tiên factual statements thay vì subjective opinions.

5. Văn phong đơn giản

Các câu ngắn, rõ ràng và trực tiếp có khả năng được trích dẫn cao hơn các câu phức tạp.

Không phải vì AI không hiểu câu phức — mà vì câu đơn giản dễ tách thành một đơn vị thông tin độc lập.

Nguyên tắc:

  • Mỗi câu = một ý chính

  • Tránh nhiều mệnh đề phụ

  • Ưu tiên cấu trúc chủ ngữ – động từ – bổ ngữ rõ ràng

Khi kết hợp 5 yếu tố này với pattern “ski ramp”, bạn có một framework rõ ràng để tối ưu nội dung cho AI:

  • Đưa insight quan trọng lên đầu

  • Viết câu dứt khoát

  • Dùng cấu trúc Q&A khi phù hợp

  • Tăng mật độ entity

  • Giữ văn phong đơn giản và trung lập

3/ Điều này có ý nghĩa gì với SEO và chiến lược nội dung?

Phát hiện này không chỉ là insight kỹ thuật — nó thay đổi cách chúng ta nên viết nội dung.

Trong thời kỳ SEO truyền thống, mục tiêu là:

  • Giữ người dùng ở lại trang lâu nhất có thể

  • Tối ưu dwell time

  • Kéo dài hành trình đọc đến CTA

Nhưng trong kỷ nguyên AI, mục tiêu thay đổi:

  • Tối đa hóa khả năng được trích dẫn

  • Tối ưu cho information extraction

  • Đưa giá trị lên đầu thay vì giữ lại cuối

Nói cách khác: bạn không chỉ viết cho con người — bạn viết cho cả AI.

Sự chuyển dịch: từ “giữ chân” sang “cung cấp giá trị ngay lập tức”

Chiến lược content cần chuyển từ mô hình “build suspense” sang “deliver upfront”.

Điều này có nghĩa:

  • Insight chính phải nằm ở phần đầu

  • Các đoạn đầu phải chứa thông tin hoàn chỉnh

  • Không giấu thông tin quan trọng để giữ người đọc

Đây thực chất là quay lại nguyên tắc BLUF — vốn đã tồn tại từ lâu trong báo chí và quân sự.

Content như một “API cho AI”

Một cách nhìn hiệu quả: hãy xem nội dung của bạn như một API.

Mỗi đoạn văn là một “endpoint” cung cấp thông tin rõ ràng, có cấu trúc và dễ truy xuất.

Nếu nội dung của bạn:

  • Rõ ràng

  • Có cấu trúc

  • Giàu entity

→ AI sẽ “gọi” nội dung đó thường xuyên hơn (tức là trích dẫn).

4/ Framework viết nội dung cho kỷ nguyên AI

Dựa trên toàn bộ phân tích, có thể xây dựng một framework đơn giản:

Bước 1: Đặt insight chính ở đầu

Ngay trong 20–30% đầu nội dung, hãy trả lời trực tiếp câu hỏi chính.

Bước 2: Viết theo cấu trúc Q&A khi phù hợp

Biến nội dung thành các “đơn vị trả lời” rõ ràng.

Bước 3: Tăng mật độ entity

Sử dụng tên riêng, thuật ngữ và khái niệm cụ thể.

Bước 4: Giữ câu đơn giản

Mỗi câu nên truyền tải một ý rõ ràng.

Bước 5: Tránh cảm xúc cực đoan

Ưu tiên tone trung lập, mang tính thông tin.

Kết luận

AI không đọc nội dung như con người — nhưng cũng không hoàn toàn khác.

Nó ưu tiên:

  • Thông tin rõ ràng

  • Cấu trúc hợp lý

  • Giá trị được cung cấp sớm

Điều này dẫn đến một nghịch lý thú vị:

Để tối ưu cho AI, bạn cần quay lại với những nguyên tắc viết tốt nhất của con người.

Viết như một nhà báo. Trình bày như một nhà nghiên cứu. Và cấu trúc như một hệ thống.

Đó là cách để nội dung của bạn không chỉ được đọc — mà còn được AI “chọn” và trích dẫn.

 

Xem bài viết tiếp theo: Khoa học đằng sau cách AI chọn nguồn