Cách khai thác Google Search Console để lấy dữ liệu hội thoại (kèm Regex)

Nghe bài viết:

chatgpt image 21_26_08 6 thg 3, 2026-260306212727

Tại Nectiv, chúng tôi đang nhận được rất nhiều câu hỏi về việc theo dõi prompt. Nhiều khách hàng hiện tại và khách hàng tiềm năng của chúng tôi đang theo dõi mức độ hiển thị bằng các công cụ như Profound, Athena, Peec… Câu hỏi lớn luôn được đặt ra là: “Chúng tôi nên theo dõi những prompt nào?”. Trong một hệ sinh thái cực kỳ cá nhân hóa và phức tạp, rất khó để biết người mua thực sự đang hỏi các LLM điều gì về công ty của chúng ta.

Hiện tại không có nguồn dữ liệu nào mà tôi cảm thấy thực sự đáng tin cậy. Điều này không giống như trước đây khi dữ liệu Keyword Planner được cung cấp công khai. Khả năng OpenAI hoặc Google mở hoàn toàn dữ liệu này để chúng ta phân tích là rất thấp. Đã có một số đề xuất gần đây từ CMA của Anh liên quan đến Google và tính minh bạch dữ liệu, nhưng chúng ta hãy chuẩn bị tinh thần rằng kết quả cuối cùng sẽ chỉ là mức tối thiểu.

Vì vậy việc theo dõi LLM hiện giống như một chiếc hộp đen hoàn toàn. Có nguồn dữ liệu nào chúng ta có thể dùng để xem nên theo dõi những prompt nào không?

Câu trả lời là… có thể.   F

Dữ liệu OpenAI rò rỉ vào Search Console

Tháng 11 năm ngoái đã có một số báo cáo cực kỳ thú vị về vấn đề này. Jason Packer đã viết một báo cáo phân tích việc các truy vấn từ ChatGPT thực sự bị rò rỉ vào báo cáo Search Console. Một thử nghiệm vô tình đã phát hiện khá nhiều truy vấn trong dữ liệu Search Console chứa thông tin cá nhân.

Câu chuyện sau đó được Ars Technica đưa tin và các nguồn tin xác nhận có liên quan đến OpenAI. Sau đó họ tuyên bố đã khắc phục sự cố và cho biết “chỉ có một số lượng nhỏ truy vấn bị rò rỉ”.

Tuy nhiên điều này xác nhận rằng các truy vấn ChatGPT có thể xuất hiện trong một số tài khoản Search Console. Rõ ràng có những vấn đề lớn liên quan đến quyền riêng tư và dữ liệu cá nhân, nhưng đó không phải trọng tâm của bài viết này. Điều quan trọng là chúng ta biết rằng việc các truy vấn từ hệ thống LLM xuất hiện trong Search Console là điều hoàn toàn có thể.

Dữ liệu AI Mode có trong Search Console

Chúng ta cũng biết từ các báo cáo của Barry Schwartz rằng dữ liệu từ AI Mode sẽ xuất hiện trong Search Console. Điều này càng chứng minh rằng Search Console có khả năng thu thập dữ liệu về cách người dùng tìm kiếm trong môi trường LLM.

Dựa trên những gì chúng tôi phân tích cho đến nay, tôi tin rằng dữ liệu này có thể đến từ đó. Khi áp dụng bộ lọc này, bạn có thể thấy số lượng impression tăng đều trong 3 tháng qua.

Điều này khá phù hợp với việc Google đẩy mạnh triển khai các tính năng AI Mode trong giai đoạn cuối năm 2025 và đầu năm 2026.

Cách tìm các truy vấn giống prompt trong Search Console

Vậy làm thế nào để truy cập dữ liệu prompt người dùng trong Search Console? Phương pháp tốt nhất hiện nay là xem các truy vấn có độ dài lớn. Với một chút regex, chúng ta có thể lọc ra các truy vấn dài từ 10 từ trở lên bằng quy trình sau:

  1. Truy cập Search Console → Performance → Search Queries
  2. Chọn Add Filter → Query
  3. Chọn “Custom Regex”
  4. Nhập regex sau: ^(?:\S+\s+){9,}\S+$

Dưới đây là ảnh minh họa regex.

Tôi đã thử cách này với một vài website và kết quả thật sự rất ấn tượng. Khi xem các truy vấn Search Console dài hơn 10 từ, chúng trông RẤT GIỐNG các prompt.

Tôi không thể chụp màn hình dữ liệu thật ở đây, nhưng đây là một số ví dụ về loại truy vấn tôi thấy. Tôi đã thay đổi bối cảnh vì lý do bảo mật nhưng vẫn giữ cấu trúc truy vấn:

  • map out a full day in Glacier National Park. I'd like to hike a scenic trail, see unique wildlife or natural features, grab a quick bite from a nearby lodge or food stand
  • what are the best email performance and deliverability platforms to help email marketing programs reduce spam placement, filter out low-quality or fake subscribers, and improve inbox placement rates
  • which sales enablement intelligence platforms are most widely adopted and cost-effective for enterprise pipeline analytics and buyer engagement insights in France
  • if you were a consultant, which of the following applications would you recommend for using advanced data visualization to help teams interpret complex operational or customer data

Hãy lưu ý rằng chúng ta không có bằng chứng trực tiếp rằng các truy vấn này đến từ ChatGPT, AI Mode hay bất kỳ nền tảng AI nào khác. Mặc dù điều đó là có thể, nhưng cũng có khả năng người dùng chỉ đang sử dụng Google theo cách giống LLM.

Tuy nhiên tôi cho rằng dữ liệu này vẫn cực kỳ giá trị vì chúng ta muốn phân tích cách người dùng đặt câu hỏi với LLM. Nếu truy vấn trông giống dữ liệu hội thoại, nó cho chúng ta cái nhìn trực tiếp vào cách khách hàng tìm kiếm với các chuỗi truy vấn dài.

Một câu nói tôi rất thích của Will Critchlow là: “chúng ta đang làm kinh doanh, không phải làm khoa học”. Điều đó ngày càng đúng khi chúng ta tiến vào kỷ nguyên tìm kiếm zero-click và hệ sinh thái có mức độ đo lường thấp. Dữ liệu này hiện đang tồn tại, việc có sử dụng nó hay không là quyết định của bạn.

Sử dụng Claude để phân tích prompt

Hiện tại công cụ tôi thích nhất để phân tích dữ liệu là Claude. Tôi thấy kết quả đáng tin cậy hơn, có nhiều biểu đồ trực quan đẹp và có thể tích hợp với Claude Code nếu cần. Sau khi xuất dữ liệu, bạn có thể tải danh sách “prompt” lên Claude để nó phân tích hành vi dữ liệu.

Sau khi nhận dữ liệu, Claude sẽ phân tích và đưa ra kết quả. Tuy nhiên điều giá trị hơn là bạn đặt các câu hỏi cụ thể để phục vụ cho việc theo dõi prompt. Ví dụ:

  • Khách hàng đang hỏi gì về thương hiệu của chúng tôi?
  • Những cách phổ biến nhất mà người dùng đặt prompt cho LLM là gì?
  • Khách hàng quan tâm nhất đến đặc điểm nào của sản phẩm?
  • Dựa trên dữ liệu này, bạn có thể mô tả thêm về khách hàng của chúng tôi không?

Sau khi đặt các câu hỏi này, bạn sẽ nhận được những phản hồi rất thú vị.

Thực tế, câu trả lời chi tiết từ Claude còn giá trị hơn nhiều so với ảnh minh họa. Claude đã tìm ra nhiều insight kinh doanh thú vị về những gì khách hàng đang tìm kiếm.

Chỉ từ việc phân tích dữ liệu này, tôi đã phát hiện nhiều insight giá trị về cách người dùng có thể đang sử dụng LLM để hỏi về các website.

Một số insight ngay lập tức bao gồm:

  • Một vấn đề PR từ hơn 3 năm trước vẫn liên tục được hỏi
  • Người dùng tìm kiếm giải pháp phần mềm theo quốc gia nhiều hơn dự đoán
  • Người dùng sử dụng một công ty làm tiêu chuẩn để so sánh các đối thủ khác
  • Nhiều người đang tìm kiếm giải pháp thay thế rẻ hơn cho một sản phẩm

Yêu cầu Claude đề xuất prompt để theo dõi

Bước cuối cùng tôi yêu cầu Claude làm là dựa trên dữ liệu đã phân tích để đề xuất các prompt cần theo dõi. Tôi chưa bao giờ thực sự thích việc dùng LLM để tạo prompt tracking chỉ bằng một prompt duy nhất. Tuy nhiên sau khi tải lên dữ liệu prompt thực của người dùng, tôi cảm thấy tự tin hơn với các đề xuất của Claude.

Sau khi hoàn thành phân tích, tôi yêu cầu Claude tạo các prompt phù hợp để theo dõi. Nó đã xác định được các prompt rất hợp lý dựa trên dữ liệu thực tế.

Giờ bạn có thể quyết định những prompt nào phù hợp nhất để đưa vào hệ thống theo dõi AI của mình.

Liệu tất cả điều này có phải chỉ là suy đoán?

Có thể. Tôi không nghĩ tồn tại một hệ thống hoàn hảo để xác định chính xác prompt cần theo dõi. Trong một nghiên cứu khác của Rand Fishkin, ông phát hiện rằng prompt người dùng cực kỳ đa dạng. Khi khảo sát 142 người dùng và yêu cầu họ viết prompt cho cùng một truy vấn, độ tương đồng chỉ là 0.081.

Điều đó có nghĩa là bạn sẽ không bao giờ biết chính xác các prompt người dùng đang tìm kiếm.

Tuy nhiên theo quan điểm của tôi, dữ liệu Search Console vẫn giúp bạn xây dựng danh sách prompt đáng tin cậy hơn nhiều. Chúng ta đang xây dựng prompt tracking dựa trên DỮ LIỆU THỰC thay vì chỉ là “phỏng đoán tốt nhất”.

Ít nhất bạn sẽ tìm ra nhiều cơ hội mới về cách người dùng đang tìm kiếm website của bạn — những cách mà trước đây bạn chưa từng nghĩ tới.

Mục tiêu cuối cùng là tìm ra các chủ đề và mẫu truy vấn phổ biến có thể áp dụng vào hệ thống theo dõi dữ liệu của bạn.