Nghiên cứu AI Citation (Phần 5): Nội dung ngắn gọn, nhất quán, đi sâu, cụ thể được ưu tiên

Chiến lược "ultimate guide" tạo ra kết quả trích dẫn tệ hơn trang ngắn, tập trung.

AI Research @ Infinity10 Thg 06 2026

Trong nhiều năm, SEO vận hành trên một giả định đơn giản: nội dung phủ càng rộng, càng dễ xuất hiện trong câu trả lời AI. Trong SEO truyền thống, giả định đó là việc "viết nội dung bao phủ toàn bộ các góc chủ đề - ultimate guide ", đều hướng tới việc: thêm chủ đề con, bao quát mọi khía cạnh, thêm độ dài cho nội dung.

Nghiên cứu của Airops [1] phân tích 815.000 cặp truy vấn-trang trên 16.851 truy vấn và 353.799 trang cho thấy ngược lại: chiến lược "viết nội dung bao phủ toàn bộ các góc chủ đề" tạo ra kết quả trích dẫn tệ hơn trang ngắn, tập trung. Mức độ phủ chủ đề con (fanout coverage) gần như không liên quan đến tỷ lệ trích dẫn. Và 2 tín hiệu thực sự dự đoán liệu ChatGPT có trích dẫn trang hay không.

Tóm tắt các điểm chính

Phủ 100% chủ đề con chỉ thêm 4,6 điểm phần trăm so với phủ 0%. Khi kiểm soát biến query match, phủ vừa phải (26–50%) vượt trội phủ toàn diện.
"Ultimate guide" thua trang tập trung. Retrieval rank là tín hiệu mạnh nhất: trang vị trí 0 có tỷ lệ trích dẫn 58%, vị trí 10 giảm còn 14%.
Query match (mức tương đồng giữa truy vấn và heading tốt nhất của trang) là tín hiệu nội dung mạnh nhất: heading match 0,90+ đạt 41% trích dẫn, dưới 0,50 chỉ 30%. 58% trang ChatGPT truy xuất không bao giờ được trích dẫn. 25% luôn được trích dẫn.
Hai nhóm này gần đồng nhất trên mọi chỉ số nội dung (độ dài, heading, readability, domain authority), thứ tách biệt chúng là retrieval rank.
Vùng ưu tiên trích dẫn: 1000–2.000 từ, 7–20 heading, match truy vấn trực tiếp trong heading.

1/ Nghiên cứu được thực hiện thế nào?

Nghiên cứu AirOps trên 16.851 truy vấn qua ChatGPT 3 lần mỗi truy vấn qua giao diện, ghi lại mọi truy vấn fanout (truy vấn phụ AI tự sinh ra), mọi URL được tìm, mọi trích dẫn, và mọi trang được đọc. Mỗi truy vấn tạo trung bình 2 truy vấn fanout. ChatGPT truy xuất khoảng 10 URL mỗi lần tìm phụ, đọc qua, rồi chọn URL nào để trích dẫn.

Phương pháp đo:

Đánh giá mức độ query match của các tiêu đề phụ H2-H4 trên mỗi trang với các truy vấn fanout (truy vấn phân tán) đó bằng cách sử dụng cosine similarity (độ tương đồng cosine) trên các embedding bge-base-en-v1.5.
Điểm đánh giá được gọi là fanout coverage (độ phủ phân tán) : tỷ lệ các chủ đề phụ mà một trang đề cập đến ở ngưỡng tương đồng 0,80. (Ngưỡng tương đồng 0,80 được sử dụng để quyết định xem một tiêu đề phụ có được tính là match với fan-out query hay không. Hãy coi nó như một thanh đánh giá mức độ liên quan.)

Câu hỏi cốt lõi: Nội dung phủ toàn bộ chủ đề (fanout coverage) cao hơn có được trích dẫn nhiều hơn không?

2/ Bao phủ toàn bộ chủ đề có giúp tăng trích dẫn AI không?

Trên 815.484 dòng dữ liệu, mối quan hệ giữa fanout coverage và trích dẫn có mối quan hệ yếu.

Phủ 100% chủ đề con chỉ thêm 4,6 điểm phần trăm so với phủ 0%. Khoảng cách này thu hẹp thêm khi kiểm soát biến query match (mức tương đồng giữa heading tốt nhất của trang và truy vấn gốc).

Kết quả khi chỉ xét trang có query match mạnh (cosine similarity ≥ 0,80):

Phủ vừa phải (26–50%) vượt trội phủ toàn diện. Trang phủ mọi thứ ghi điểm thấp hơn trang chỉ phủ 1/4 chủ đề con. Chiến lược "ultimate guide" tạo kết quả tệ hơn bài tập trung phủ 2–3 góc liên quan.

Đây là phát hiện bổ sung trực tiếp cho Phần 3: Phần 3 cho thấy trang evergreen phủ cụm truy vấn đạt citation breadth cao. Phần 5 làm rõ: "phủ cụm truy vấn" không đồng nghĩa "phủ mọi thứ". Trang hiệu quả nhất phủ 2–3 góc liên quan sâu; nhất quán về một khía cạnh, không phải 20 góc nông và rời rạc.

3/ Retrieval rank và query match là 2 tín hiệu dự đoán trích dẫn mạnh nhất trong ChatGPT

Phần 4 chỉ ra, Fanout coverage, độ dài, số heading, domain authority... tất cả đều là thứ yếu. Một số phẳng. Một số tương quan ngược. Chỉ 2 tín hiệu chính chi phối:

Retrieval rank

Trang ở vị trí 0 trong kết quả tìm kiếm web ChatGPT (URL đầu tiên công cụ tìm kiếm trả về) có tỷ lệ trích dẫn 58%. Đến vị trí 10, giảm còn 14%.

Mỗi truy vấn được chạy 3 lần liên tiếp. Trang được trích dẫn cả 3 lần có median retrieval rank 2,5. Trang không bao giờ được trích dẫn: median rank 13.

Phát hiện này có hàm ý lớn: retrieval rank (tức Google rank trong nhiều trường hợp, vì ChatGPT dùng tìm kiếm web để truy xuất) là tín hiệu số 1 cho ChatGPT citation.

Lưu ý: không hiểu lầm giữa tín hiệu (signal) và yếu tố (factor)

Query match

Cosine similarity giữa truy vấn và heading tốt nhất của trang là tín hiệu nội dung mạnh nhất. Trang có heading match ≥ 0,90 đạt tỷ lệ trích dẫn 41%, so với 30% cho trang dưới 0,50.

Ngay cả trong nhóm trang xếp hạng cao nhất (vị trí 0–2), query match cao hơn thêm 19 điểm phần trăm.

Liên hệ với Phần 2: Phần 2 cho thấy 78,4% trích dẫn có câu hỏi đến từ heading, và AI đối xử H2 như prompt người dùng. Phần 5 xác nhận bằng dữ liệu lớn hơn: heading match trực tiếp với truy vấn người dùng là tín hiệu nội dung quyết định, vượt xa mọi tín hiệu on-page khác.

4/ Wikipedia là ngoại lệ

Một loại trang duy nhất phá vỡ mẫu hình. Wikipedia có retrieval rank tệ nhất trong bộ dữ liệu (median 24) và query match thấp nhất (0,576). Nó vẫn đạt tỷ lệ trích dẫn cao nhất: 59%.

Trang Wikipedia trung bình 4.383 từ, 31 danh sách, 6,6 bảng. Chúng mang tính bách khoa theo nghĩa đen. ChatGPT trích dẫn Wikipedia từ sâu trong kết quả tìm kiếm, nơi mọi loại trang khác bị bỏ qua.

Đây là chỗ mà mật độ thông tin hoạt động như một tín hiệu, nhưng ở quy mô mà không nhà xuất bản nào có thể sao chép được. Nội dung của Wikipedia rất đầy đủ, được cấu trúc phong phú và liên kết chéo giữa hàng triệu chủ đề. Một bài đăng trên blog của công ty dài 3.000 từ với 15 tiêu đề phụ không phải là điều tương tự.

Ngoại lệ Wikipedia xác nhận quy tắc: đối với mọi trang không phải Wikipedia, retrieval rank và query match quyết định. Mật độ nội dung chỉ thắng khi đạt quy mô bách khoa toàn thư, quy mô không khả thi cho hầu hết thương hiệu.

5/ 58% số trang được ChatGPT truy xuất trong tập dữ liệu này không bao giờ được trích dẫn

Phân bổ trích dẫn mang tính nhị phân, không phải phổ liên tục:

Phát hiện phản trực giác: nhóm "luôn trích dẫn" và "không bao giờ trích dẫn" gần đồng nhất trên hầu hết chỉ số nội dung: độ dài tương tự (~2.200 từ), số heading tương tự (~20), điểm dễ học tương tự (~12 FK), domain authority tương tự (~54).

Các tín hiệu on-page không phải điểm mấu chốt giữa nội dung được trích dẫn và không được trích dẫn. Thứ tách biệt chúng là retrieval rank. Trang luôn được trích dẫn xếp gần đầu khi xuất hiện. Trang không bao giờ được trích dẫn xếp nửa dưới. Hệ thống truy xuất dữ liệu chính là bộ lọc (Retrieval rank) duy nhất tạo nên sự khác biệt, các chỉ số còn lại chỉ có giá trị khi bất phân thắng bại.

Nhóm 17% "lúc có lúc không" chính là "ultimate guide": độ dài cao nhất, nhiều heading nhất, domain authority cao nhất trong bộ dữ liệu. Và cũng là nhóm kém đáng tin cậy nhất trên ChatGPT.

6/ Dữ liệu này thay đổi cách xây nội dung thế nào?

Lời khuyên viết nội dung SEO truyền thống: phủ thêm chủ đề con, thêm section, xây mật độ... đi sai hướng tiếp cận về mọi mặt. Dữ liệu cho thấy cách tiếp cận truyền thống tạo ra trang "lúc có lúc không" - nhóm 17% ở giữa, trích dẫn đôi khi và bị bỏ qua đôi khi.

Trang thắng nhất quán có đặc điểm khác:

Những trang luôn giành chiến thắng đều tập trung vào một chủ đề cụ thể. Các tiêu chí mà Infinity đề xuất:

Nghiên cứu chân dung khách hàng và tạo heading từ chính câu hỏi của khách hàng qua crm, ticket, ...
Nội dung nằm trong khoảng 1000-2.000 từ là lý tưởng để trích dẫn), và
Cần có cấu trúc đủ chặt chẽ (7-20 tiêu đề phụ) để sắp xếp nội dung mà không làm loãng nội dung chính.

Nguyên tắc: Hãy xây dựng trang web trả lời tốt nhất cho một câu hỏi duy nhất, chứ không phải trang web trả lời thỏa đáng cho hai mươi câu hỏi.

Một số phát hiện khác sẽ chuyển đổi cách bạn tiếp cận AI SEO:

Thứ hạng tìm kiếm là tín hiệu quan trọng nhất: Một trang ở vị trí số 1 có 58% khả năng được trích dẫn. Đến vị trí số 10, tỷ lệ đó giảm xuống còn 14%.
Liệu nội dung hướng dẫn toàn diện vẫn được ưu tiên? Không hẳn. Các trang bao gồm 26-50% các truy vấn con của ChatGPT được trích dẫn nhiều hơn các trang bao gồm 100%.
Chỉ số uy tín tên miền không nói lên điều gì: Các trang luôn được trích dẫn có chỉ số DA thấp hơn các trang không bao giờ được trích dẫn. Chất lượng nội dung mới là yếu tố quan trọng.

Đây là Phần 5 trong series "Nghiên cứu cơ chế trích dẫn AI". Infinity vẫn sẽ tiếp tục ra các nội dung mới từ series về AI Citation này. Bạn đọc quan tâm hãy thường xuyên quay trở lại Advertising Vietnam để tìm hiểu các nội dung mới nhất lĩnh vực AI Marketing từ Infinity và các chuyên gia khác.

Nguồn nghiên cứu và trích dẫn:

1. https://www.airops.com/report/the-fan-out-effect-what-happens-between-a-query-and-a-citation?submissionGuid=8ffff70c-7e4e-4d13-a3bb-f905ade911bc

Bài viết liên quan