Nghiên cứu AI Citation (Phần 3): AI chọn nguồn nào để trích dẫn?

Các tên miền sở hữu tỷ trọng trích dẫn cao xây dựng hệ thống kiến trúc chủ đề chặt chẽ, nắm giữ topical authority sâu, lặp lại thẩm quyền và hình thành Brand Authority.

BởiInfinity

AI Research @ Infinity25 Thg 05 2026

Phân tích hơn trích dẫn ChatGPT trên 7 ngành cho thấy: khoảng 30 tên miền chiếm 67% trích dẫn trong bất kỳ chủ đề nào. Lợi thế trích dẫn bắt đầu rõ rệt từ ngưỡng 10.000 ký tự. Và 58% URL được trích dẫn chỉ xuất hiện đúng 1 lần trong khi top 4,8% URL xuất hiện trên 10 prompt khác nhau, tất cả đều là trang so sánh danh mục hoặc hướng dẫn tổng hợp.

Nghiên cứu có so sánh dữ liệu từ Google Ranking với citation rate. Đây là so sánh tương quan, không có mối quan hệ nhân quả vì AEO và SEO là 2 hệ thống khác nhau.

Tóm tắt các điểm chính

Phần 1 phân tích mức độ ảnh hưởng đến đầu ra AI. Phần 2 chỉ ra "Nội dung như thế nào thì dễ được AI trích dẫn?". Phần 3 nâng tầm phân tích từ cấp vi mô (câu, đoạn văn) lên cấp vĩ mô (trang, domain, ngành): AI chọn nguồn trích dẫn như thế nào, phân bổ ra sao và dựa vào điều kiện như nào?

Khoảng 30 tên miền chiếm 67% trích dẫn trong mỗi chủ đề. Top 10 tên miền chiếm 46%. Hệ thống trích dẫn AI vẫn rất tập trung, dù ít hơn một chút so với organic search truyền thống.
Lợi thế nội dung dài rõ nhất ở ngưỡng 10.000 ký tự, nhưng hoàn toàn phụ thuộc ngành. Finance đảo ngược: trang ngắn, cô đọng thắng trang
58% URL chỉ được trích dẫn cho đúng 1 câu hỏi rồi biến mất. Nhưng top 4,8% URL (xuất hiện trong 10+ câu hỏi khác nhau) đều là trang so sánh hoặc hướng dẫn danh mục.
Citation breadth (số câu hỏi khác nhau mà 1 tên miền xuất hiện) là chỉ số chiến lược quan trọng hơn tổng số lần trích dẫn. Xuất hiện trong 100 câu hỏi khác nhau giá trị hơn được trích dẫn 100 lần cho cùng 1 câu hỏi.
Mô hình ski ramp từ Phần 2 được xác nhận trên 7 ngành với 42.460 trích dẫn: đỉnh thực sự nằm ở dải 10–20% (không phải câu mở đầu), đáy 10% cuối gần như vô hình (2,4–4,4% trích dẫn).
Infinity kết luận các tên miền sở hữu tỷ trọng trích dẫn cao xây dựng hệ thống kiến trúc chủ đề chặt chẽ, nắm giữ topical authority sâu, lặp lại thẩm quyền và hình thành Brand Authority.

1/ Trang xếp hạng cao trên Google có được ChatGPT trích dẫn không?

Trong số các trang xếp hạng #1 trên Google, 43,2% được ChatGPT trích dẫn. Con số này cao gấp 3,5 lần so với các trang nằm ngoài top 20. Xếp hạng tốt trên Google giúp tăng cơ hội, nhưng không đảm bảo sẽ được AI trích dẫn.

Nguồn: [1]

Nghiên cứu của AirOps trên 548.534 trang mà ChatGPT đã thu thập (retrieved) và 15.000 prompt cho thấy: ChatGPT thu thập gấp khoảng 6 lần so với số trang nó thực sự trích dẫn. Cụ thể, 85% trang được thu thập không bao giờ xuất hiện trong câu trả lời cuối cùng.

Một chi tiết đáng chú ý: 1/3 số trang được trích dẫn đến từ fan-out query. Fan-out query là các truy vấn phụ mà ChatGPT tự tạo thêm trong quá trình tìm câu trả lời, ví dụ: khi người dùng hỏi "CRM nào tốt nhất cho startup?", ChatGPT có thể tự tìm thêm "so sánh giá CRM 2026" hoặc "CRM cho team nhỏ dưới 10 người." 95% fan-out query này có search volume bằng 0 trên Google, nghĩa là đây là những truy vấn mà SEO truyền thống không bao giờ nhắm tới nhưng AI lại dùng để xây dựng câu trả lời.

Nguyên tắc nền tảng: được Google lập chỉ mục (index) và xếp hạng là điều kiện cần. Nhưng điểm nhấn ở đây là quy trình lọc riêng của LLMs mới quyết định trang nào thực sự xuất hiện trong câu trả lời.

Điểm mấu chốt:

Cơ chế của xếp hạng và trích dẫn thuộc về hai nền tảng khác nhau. 43,2% các trang #1 được ChatGPT trích dẫn đồng nghĩa với 56.8% các trang # còn lại không được trích dẫn
Xếp hạng dựa trên từ khóa, trích dẫn dựa trên query fan-out - truy vấn được phân tán từ câu hỏi đầu tiên người dùng nhập vào.
Trọng tâm nhất của nội dung này: Google ranking dựa trên Domain Authority, Trích dẫn của các LLMs dựa trên Topical Authority (thẩm quyền chủ đề)

Khi hàng trăm tên miền cùng cạnh tranh 1 chủ đề, LLM chọn tên miền nào để trích dẫn? Đầu tiên, xét mẫu dữ liệu dưới đây để xem hệ thống ChatGPT phân phối trích dẫn như thế nào?

2/ Trong mỗi chủ đề, bao nhiêu tên miền chiếm phần lớn trích dẫn AI?

Tìm kiếm truyền thống là trò chơi có hiệu ứng "người thắng được tất cả": kết quả đầu tiên nhận click nhiều hơn không tương xứng so với kết quả thứ hai. Vậy trong hệ thống LLMs, Câu hỏi đặt ra: phân bổ trích dẫn ChatGPT trong một chủ đề có tương tự?

Phân tích tỷ trọng trích dẫn theo tên miền trên 21.482 dòng trích dẫn, 670 tên miền, 2.344 URL và 127 prompt cho thấy: Có 10 tên miền chiếm 46% trích dẫn. Có 30 tên miền chiếm 67%.

Biểu đồ cumulative share trích dẫn AI theo top domain, cho thấy có 30 chiếm 67% tổng số trích dẫn

Hệ thống trích dẫn AI phân phối trải đều hơn organic search truyền thống (nơi kết quả #1 chiếm phần lớn click, CTR top 1 ~25-35%) - nghĩa là thị phần được chia sẻ nhiều hơn so với xếp hạng top 10 của tìm kiếm truyền thống. Trong khi đó, thị phần share trích dẫn của GPT cho thấy 30 domain hàng đầu của lĩnh vực chia sẻ chung 67% tổng số trích dẫn. Nhấn mạnh chỗ này để hướng bạn tới mục 5 của nội dung, mục 5 sẽ chỉ bạn cách chiếm nhiều thị phần cite hơn trên mỗi URL.

Ngoài ra, để hiểu rõ hơn, cần phân biệt 2 chỉ số mà nghiên cứu dùng xuyên suốt:

Citation count = tổng số lần một tên miền được trích dẫn.

Citation breadth (hay citation reach) = số câu hỏi khác nhau mà tên miền đó xuất hiện. Đo "phạm vi ảnh hưởng." (chú thích: xem phần 5 của nội dung này)

Về mặt chiến lược, citation breadth có giá trị cao hơn citation count vì nó cho thấy tên miền đang trả lời được nhiều loại câu hỏi, không chỉ lặp lại cho cùng một truy vấn.

Điểm mấu chốt: trong mỗi chủ đề chỉ có khoảng 30 tên miền cùng nhau share thị phần trong cùng lĩnh vực. Nếu bạn không lọt vào trong top 30 ngành, thị phần và cơ hội của bạn ít đi.

10 tên miền hàng đầu chiếm 46% tổng số trích dẫn về một chủ đề, 30 tên miền hàng đầu chiếm 67%. Vậy điều điều này có đúng với các ngành?

3/ Mức độ tập trung trích dẫn khác nhau thế nào giữa các ngành?

"Tập trung trích dẫn ở đây có nghĩa: một vài tên miền chiếm phần lớn trích dẫn trong ngành đó. Ngành càng tập trung, càng ít chỗ cho tên miền mới gia nhập. Ngành càng phân tán (có nhiều ngách - phân mảnh), cơ hội càng mở.

Mẫu hình tập trung trích dẫn thay đổi đáng kể giữa các ngành, phản ánh mức độ trưởng thành và cấu trúc truy vấn của từng danh mục.

Điểm mấu chốt:

3 hàm ý chiến lược từ phân bổ theo ngành:

1/ Phạm vi phủ chủ đề quan trọng hơn "domain authority" - như đã nói tại phần 1. Một trang so sánh có cấu trúc tốt có thể vượt toàn bộ danh mục tên miền của thương hiệu nổi tiếng. Mục tiêu không phải xếp hạng cho 1 truy vấn, mà trả lời cả cụm truy vấn.

2/ Mức tập trung phản ánh mức trưởng thành danh mục. Giáo dục và Crypto có không gian truy vấn hẹp, rõ ràng, nơi vài nguồn uy tín đã "khóa" niềm tin. Y tế và CRM là danh mục rộng, phân mảnh, không tên miền nào chi phối. Sự phân mảnh đó là cơ hội.

3/ Citation breadth (số prompt riêng biệt mà tên miền được trích dẫn) là chỉ số chiến lược hữu ích hơn tổng số trích dẫn. Trong ngành phân tán như Y tế và CRM, chiến lược tập trung vào 30-50 trang có thể cạnh tranh hiệu quả để giành được một vị trí trong ngành.. Trong ngành tập trung như Giáo dục và Crypto, con đường hẹp hơn: trở thành nguồn định nghĩa cho một chủ đề con cụ thể, hoặc chấp nhận cạnh tranh cho phần thừa.

Dựa trên các truy vấn (prompt), tiếp tục xét tới độ dài nội dung của các URL được trích dẫn.

4/ Độ dài nội dung ảnh hưởng thế nào đến số lượng trích dẫn?

Trong tìm kiếm truyền thống, độ dài nội dung có tương quan với xếp hạng (khi chất lượng cao). Câu hỏi: điều này có đúng cho trích dẫn ChatGPT?

Đo độ dài văn bản thô của mỗi trang được trích dẫn, phân thành 7 nhóm ngành và tính trung bình trích dẫn mỗi trang cho từng nhóm:

Bước nhảy từ 5.000 đến 10.000 ký tự là mức tăng đơn lẻ lớn nhất gần gấp 2 lần. Trang trên 20.000 ký tự trung bình 10,18 trích dẫn, so với 2,39 cho trang dưới 500 ký tự.

Biểu đồ tương quan giữa độ dài nội dung (7 bucket) và số citation trung bình mỗi trang

Nhưng hiệu ứng độ dài thay đổi mạnh theo ngành:

Tài chính đảo ngược hoàn toàn. Trang Tài chính được trích dẫn nhiều có trung bình 1.783 từ, so với 2.084 từ cho trang trích dẫn thấp (hệ số 0,86x). Nguồn súc tích có thẩm quyền; bảng lãi suất; tóm tắt quy định... có lợi thế trích dẫn. Tài chính đạt đỉnh ở 5.000–10.000 từ (10,9 trích dẫn/trang), rồi giảm mạnh ở 10.000–20.000 (4,92).

Lĩnh vực tài chính đạt đỉnh điểm ở khoảng 5.000-10.000 từ (10,9 trích dẫn/trang), sau đó giảm mạnh ở khoảng 10.000-20.000 từ (4,92 trích dẫn/trang).

Trang Tài chính quá dài có thể pha loãng nội dung kích hoạt trích dẫn bằng chi tiết thừa.

Giáo dục cho thấy mẫu hình "dài = thắng" rõ nhất. Trích dẫn tăng đều từ 1,85 (dưới 500 từ) lên 6,05 (trên 20.000 từ) không có điểm giảm.
Crypto và Product Analytics tương tự Giáo dục: độ dài trả thưởng nhất quán, ổn định quanh ngưỡng 10.000–20.000. Cả hai là ngành kỹ thuật nơi tính toàn diện phát tín hiệu thẩm quyền.
CRM/SaaS có hiệu ứng độ dài yếu nhất. Trích dẫn dao động từ 1,06 (1.000–2.000 từ) đến 2,77 (trên 20.000 từ). Ngay cả trang CRM dài nhất cũng chỉ được 2,77 trích dẫn trung bình. Trong ngành này, độ dài không quyết định trích dẫn — cấu trúc, format và uy tín tên miền quan trọng hơn.
Y tế có hiệu ứng trung bình (1,74 đến 3,92) nhưng với bất thường: trang 5.000–10.000 từ (2,80) underperform so với 2.000–5.000 từ (3,36). Trang Y tế quá dài có thể chứa quá nhiều chi tiết lâm sàng pha loãng nội dung kích hoạt trích dẫn.

Phát hiện phổ quát duy nhất: trang rất ngắn (dưới 1.000 từ) hoạt động kém hiệu quả trong mọi ngành. Nội dung mỏng kém hiệu quả nhất quán trong mọi ngành, nhưng phần thưởng cho nội dung dài phụ thuộc ngành.

Lưu ý: Không nên nhầm lẫn, đây là phân tích độ đài nội dung với mối tương quan trong ngành # với việc viết dài để được trích dẫn.

5/ Một URL có thể xuất hiện trong bao nhiêu câu hỏi khác nhau?

Khi xem xét số lượng trích dẫn trong một chủ đề, chúng ta thường thấy nhiều trang trên cùng một tên miền được trích dẫn. Vậy, một trang có thể nhận được bao nhiêu trích dẫn?

Phương pháp:

Đếm số lượng lời nhắc duy nhất cho mỗi trang.
Phân loại số lượng trích dẫn thành: 1, 2-5, 6-10, 11+
Kiểm tra các URL hàng đầu theo từng lĩnh vực để tìm các mẫu cấu trúc.

Trung bình 67% URL chỉ xuất hiện trong 1 prompt duy nhất. Nhưng top 4,8% URL (trích dẫn trên 10 prompt) đều là trang so sánh danh mục hoặc hướng dẫn tổng hợp, trả lời "X là gì", "ai dùng X", "cách chọn X" và "giá X" trong cùng một URL.

Biểu đồ phân bổ citation breadth, 67% URL chỉ xuất hiện 1 lần, top 4,8% xuất hiện 10+ prompt

Mẫu hình theo ngành:

CRM/SaaS có tỷ lệ "trích dẫn một lần" cao nhất: 84,7%. Hầu hết trang CRM chỉ trả lời được 1 truy vấn cụ thể.
Tài chính tạo ra trang evergreen có phạm vi rộng nhất
Crypto có trang evergreen tập trung nhất với 55,4% ở tầng kỹ thuật
Giáo dục theo logic khác: được trích dẫn rộng vì trả lời các truy vấn liên quan TEFL (chi phí, địa điểm, loại chứng chỉ) từ một nguồn duy nhất. Một URL phục vụ nhiều góc truy vấn.
Trang evergreen chia sẻ các mẫu cấu trúc nhất quán: format hướng dẫn cấp danh mục ("X tốt nhất 2026"), phủ rộng chủ đề trong một trang (X là gì, cách chọn X, top nhà cung cấp X, giá), và neo năm rõ ràng trong URL hoặc tiêu đề. Trang trả lời một lớp câu hỏi (class of questions) đạt phạm vi trích dẫn rộng.

Điểm mấu chốt cần nắm:

Nghiên cứu dùng khái niệm citation breadth (chiều rộng trích dẫn) để đo giá trị chiến lược của một URL. Khác với citation count (tổng số lần trích dẫn, đo "URL này phổ biến cỡ nào"), citation breadth đo "URL này trả lời được bao nhiêu câu hỏi khác nhau."

1/ Một trang evergreen trong hệ thống trích dẫn AI không phải trang được trích dẫn nhiều lần cho cùng một câu hỏi. Theo Infinity, trang evergreen đối với hệ thống AI thực sự là trang liên tục xuất hiện khi người dùng hỏi nhiều câu hỏi đa dạng. Đó là sự khác biệt giữa phổ biến và có giá trị bền vững.

2/ Top 4,8% URL (xuất hiện trong 10+ câu hỏi khác nhau) chia sẻ 3 đặc điểm cấu trúc nhất quán: format hướng dẫn danh mục (ví dụ: "best X for 2026"), bao phủ nhiều góc câu hỏi trong cùng một trang (X là gì, lợi ích của X, dùng X như thế nào, giá X ra sao...), và gắn năm rõ ràng trong URL hoặc tiêu đề. Nói cách khác, những trang trả lời cả một nhóm câu hỏi (a class of questions) sẽ đạt citation breadth cao.

3/ Top 5 trang evergreen trong mọi ngành đều là tổng hợp so sánh, hướng dẫn có thẩm quyền, hoặc trang danh mục/listing. Không trang mỏng đơn chủ đề nào đạt ngưỡng 11+ prompt trong bất kỳ ngành nào. Một trang evergreen phủ 10+ ý định truy vấn có giá trị AI citation reach cao hơn 10 trang đơn ý định. ROI của nội dung toàn diện tập trung ở đầu: một trang xây tốt tích lũy phạm vi trích dẫn theo thời gian.

6/ Mô hình ski ramp từ Phần 2 có đúng cho mọi ngành?

Phần 2 cho thấy 44,2% trích dẫn ChatGPT đến từ 30% đầu trang. Phân tích lại cùng phương pháp vị trí trên 7 ngành với 42.460 trích dẫn đối sánh:

Biểu đồ so sánh positional analysis trên 7 ngành, cho thấy Finance dốc nhất và Healthcare phẳng nhất

Xu hướng thực và nhất quán, nhưng cường độ thay đổi theo ngành. Một con số giữ nguyên mọi nơi: đáy 10% cuối trang chỉ nhận 2,4–4,4% trích dẫn, khoảng 1/4 so với dải đỉnh. Phần kết luận gần như vô hình với AI, bất kể ngành nào.

Phát hiện xuyên ngành: dải 10–20% là nơi AI đọc kỹ nhất trong mọi ngành. 10% đầu (điều hướng, headline, mở bài chung chung) bị bỏ qua. Đáy 10% gần như vô hình. Phần tóm tắt và kết luận hiếm khi được trích dẫn.

7/ Dữ liệu này thay đổi cách xây dựng AI visibility thế nào?

1/ Các tên miền sở hữu tỷ trọng trích dẫn không đạt được vị trí đó bằng cách viết câu hay hơn. Họ xây trang nắm giữ topical authority có chiều sâu, trả lời nhiều truy vấn trong cùng một nơi, rồi lặp lại mức thẩm quyền đó trên đủ chủ đề con để nắm nhiều trích dẫn trong cùng ngành.

2/ Được trích dẫn trên 30, 60, hay 100 prompt riêng biệt đòi hỏi kiến trúc nội dung có mục tiêu: trang xây quanh cụm truy vấn và sở hữu toàn bộ chủ đề thay vì từ khóa đơn lẻ. Làm nội dung theo mô hình truyền thống "một từ khóa, một trang" sẽ bị khóa cấu trúc khỏi trích dẫn AI, dù từng trang riêng lẻ có viết đẹp đến đâu.

3/ Nhưng như dữ liệu cho thấy, không có hướng dẫn phổ quát. Cần hiệu chỉnh theo ngành:

Liên hệ với Phần 1 và phần 2: Phần 1 cho thấy đầu ra AI có thể bị ảnh hưởng nhưng không ổn định, AI visibility là bài toán biến động. Phần 2 chỉ ra AI đọc kỹ nhất ở 20% đầu trang và tìm câu giàu thông tin nhất trong mỗi đoạn. Phần 3 bổ sung lớp trên cùng: AI chọn trang nào và câu trả lời là:

Macro: Trang nắm topical authority được kiến trúc (thiết kế chủ đề) chặt chẽ theo ngành
Micro: Nội dung trên mỗi phủ cụm truy vấn với độ dài, cấu trúc và chiều sâu thay vì tư duy dựa trên từ khóa

4/ Ý nghĩa lớn nhất cho chiến lược: Top 30 miền của ngành cùng share phần lớn thị phần trích dẫn có ý nghĩa tới việc tạo không gian phát triển sản phẩm/dịch vụ/thương hiệu. Prompt “phần mềm CRM tốt nhất” sẽ cho đầu ra đa dạng dựa trên các đặc điểm như: hiệu suất, quy mô, bảo mật, giá... Sản phẩm/dịch vụ của bạn chỉ cần làm tốt nội dung giải pháp dựa trên các đặc điểm trên, đừng tạo nội dung hàng hóa, nội dung chung chung được tổng hợp lại mà không có bất kỳ mối liên quan nào đến sản phẩm/dịch vụ/giải pháp của thương hiệu bạn.

Ba phần nghiên cứu về AI Citation của Infinity tạo thành một hệ thống: trang nào được chọn (Phần 3) → vị trí nào trong trang được đọc (Phần 2) → mức độ ổn định của kết quả (Phần 1). Điều này củng cố cho chiến lược Topic-first SEO của Infinity là chiến lược SEO bền vững trong kỷ nguyên AI

8/ Phương pháp nghiên cứu

Phân tích ~98.000 dòng trích dẫn ChatGPT từ khoảng 1,2 triệu câu trả lời ChatGPT (dữ liệu Gauge). Dữ liệu được tách riêng trên 7 ngành đã xác minh (B2B SaaS, Tài chính, Y tế, Giáo dục, Crypto, HR Tech, Product Analytics) để đảm bảo kết quả không bị lệch bởi một ngành cụ thể.

Phân tích qua nhiều lớp: phân tích cấu trúc (đo độ dài ký tự, map hệ phân cấp heading H1/H2/H3), map vị trí (Jaccard sliding-window similarity xác định chính xác dải 10% nào trên trang mà AI trích xuất), và trích xuất thực thể & cảm xúc (Google Natural Language API phân loại thực thể, TextBlob đánh giá sentiment, so sánh nội dung doanh nghiệp với nội dung UGC).

Đây là Phần 3 trong series "Nghiên cứu cơ chế trích dẫn AI". Infinity vẫn sẽ tiếp tục ra các nội dung mới từ series về AI Citation này. Bạn đọc quan tâm hãy thường xuyên quay trở lại Advertising Vietnam để tìm hiểu các nội dung mới nhất lĩnh vực AI Marketing từ Infinity và các tác giả khác.

Nguồn trích dẫn:

1. https://www.airops.com/report/influence-of-retrieval-fanout-and-google-serps-in-chatgpt