Nghiên cứu AI Citation (Phần 4): AI thực sự thưởng cho loại nội dung nào?

Hầu hết lời khuyên viết nội dung AI SEO hiện nay không đứng vững khi kiểm tra trên nhiều ngành

AI Research @ Infinity01 Thg 06 2026

Phần 1 phân tích mức độ ảnh hưởng đến đầu ra AI. Phần 2 chỉ ra nội dung dễ được AI trích dẫn . Phần 3 cho thấy AI chọn trang nào. Phần 4 trả lời câu hỏi: bên trong nội dung mà AI đã chọn đọc, AI thực sự thưởng cho tín hiệu nào? và các hàm ý ngầm rút ra cho người làm nội dung trong kỷ nguyên AI này.

Phát hiện quan trọng nhất: hầu hết lời khuyên viết nội dung AI SEO hiện nay không đứng vững khi kiểm tra trên nhiều ngành. Không tồn tại công thức phổ quát " checklist tối ưu thế này để được trích dẫn". Tín hiệu nâng tỷ lệ trích dẫn ở ngành này có thể gây hại ở ngành khác. Chỉ duy nhất một quy tắc viết giữ nguyên trên toàn bộ 7 ngành: mở bài bằng câu khẳng định trực tiếp, tăng trung bình 14%.

Tóm tắt các điểm chính

Không có công thức viết phổ quát cho AI citation. Tín hiệu hiệu quả phụ thuộc ngành: CRM/SaaS thưởng cho danh sách (+74%), độ dài (+59%) và mở bài khẳng định (+50%); Tài chính đảo ngược hoàn toàn (trang ngắn thắng 0,86x, ít danh sách hơn 0,77x).
Quy tắc duy nhất giữ nguyên mọi ngành: mở bài bằng câu khẳng định trực tiếp "X là Y" hoặc "X làm Z" (+14% tổng hợp).
Loại thực thể dự đoán trích dẫn không phải loại đang được nhắm tới: DATE và NUMBER là tín hiệu tích cực phổ quát; PRICE là tín hiệu tiêu cực mạnh nhất (âm ở 5/6 ngành); thực thể xác minh Knowledge Graph là tín hiệu tiêu cực (0,81x).
Cấu trúc heading mang tính nhị phân: cam kết đúng số lượng cho ngành hoặc không dùng. 3–4 heading tệ hơn không dùng heading trong mọi ngành.
Nội dung doanh nghiệp chiếm 94,7% trích dẫn. Reddit gần như vô hình. "Hiệu ứng Reddit" trong SEO không chuyển sang AI citation.

1/ Tín hiệu viết nào ảnh hưởng đến trích dẫn, tín hiệu nào gây hại?

Phương pháp: So sánh trang được trích dẫn nhiều (3+ prompt riêng biệt) với trang trích dẫn thấp trên 7 chỉ số viết:

Độ dài hay tổng số từ,
Ngôn ngữ khẳng định,
Ngôn ngữ rào đón (hedging),
Mục danh sách/listem/Bullet points
Mật độ thực thể được xác định trong NLP,
Các tín hiệu riêng phần mở bài,
Phân tích 1.000 từ đầu.

Kết quả tổng hợp trên toàn bộ ngành: ngôn ngữ khẳng định trực tiếp và thực thể liên quan có ý nghĩa. Nhưng hầu hết tín hiệu khác phẳng hoặc không đáng kể ở cấp tổng hợp.

Khi tách theo ngành, bức tranh thay đổi hoàn toàn:

ĐẢO NGƯỢC: trang ngắn thắng (0,86x), ít danh sách hơn (0,77x), thực thể có tên (+7%)

Giáo dục là "vùng trống tín hiệu": phong cách viết gần như không giải thích gì về khả năng được trích dẫn. Tài chính đảo ngược hầu hết tín hiệu mà các ngành khác thưởng.

Ba kết luận từ phân tích tín hiệu viết:

Thứ nhất, không tồn tại công thức "viết thế này để được trích dẫn" phổ quát. Tín hiệu nâng tỷ lệ trích dẫn CRM/SaaS gây hại tích cực cho Tài chính. Cần match format nội dung với chuẩn mực ngành.

Thứ hai, quy tắc phổ quát duy nhất: mở bài bằng câu khẳng định trực tiếp. Không phải câu hỏi, không phải đặt ngữ cảnh, không phải lời mở đầu. Dạng "X là Y" hoặc "X làm Z". Đây là hướng dẫn viết duy nhất giữ nguyên bất kể ngành, loại nội dung hay độ dài.

Thứ ba, LLM "phạt" hedging (ngôn ngữ vòng vo) ở phần mở đầu. "Điều này có thể giúp các team hiểu" hoạt động kém hơn "Các team áp dụng X đạt kết quả Y." Loại bỏ từ giảm nhẹ (qualifier) khỏi đoạn mở đầu trước bất kỳ tối ưu nào khác.

Ý nghĩa thực tế:

1/ Hầu hết lời khuyên "viết thế nào để AI trích dẫn" trên thị trường không đứng vững khi kiểm tra chéo giữa các ngành dựa trên phân tích dữ liệu

2/ AI được training dựa trên mẫu (pattern) của các ngành, nội dung các ngành được tạo bởi các chuyên gia ngành. Hàm ý người làm nội dung buộc phải hiểu domain của ngành đó

3/ Ngành có mức độ rủi ro cao YMYL (Your Money or Your Life) yêu cầu nội dung tạo được sự chắc chắn, nhất quán.

2/ Loại thực thể nào dự đoán trích dẫn và loại nào đang bị nhắm sai?

Bối cảnh: Hầu hết lời khuyên GEO/AEO về việc tối ưu thực thể đều hiểu sai ý nghĩa của kiểu Entity-first SEO như: nhồi thêm tên thương hiệu, tên công cụ, con số. Phân tích loại thực thể cụ thể trên nhiều ngành và kết quả kể một câu chuyện khác, cụ thể hơn và hữu ích hơn nhiều so với lời khuyên "thêm thực thể".

Phương pháp: Chạy Google Natural Language API trên 1.000 ký tự đầu (~200–250 từ) của mỗi URL, tính mức nâng (lift) cho mỗi loại thực thể: % trang trích dẫn cao có loại thực thể đó / % trang trích dẫn thấp. Phân tích 5.000 trang trên 7 ngành.

(Lưu ý thuật ngữ: Google NLP phân loại sản phẩm phần mềm, ứng dụng và công cụ SaaS là CONSUMER_GOOD — nhãn thừa kế từ khi API được xây cho bán lẻ vật lý. Trong phân tích này, CONSUMER_GOOD nghĩa là thực thể phần mềm/sản phẩm.)

Kết luận: Năm loại thực thể giúp tăng giả khả năng trích dẫn

1/ DATE là tín hiệu tích cực phổ quát nhất, ngoại trừ Tài chính (0,65x). Thêm ngày xuất bản vào trang là hành động đơn giản nhất có tác động rõ ràng.

2/ NUMBER là tín hiệu tích cực phổ quát thứ hai. Số đếm cụ thể, chỉ số, thống kê trong mở bài dự đoán nhất quán tỷ lệ trích dẫn cao hơn. Tài chính (0,98x) và Product Analytics (1,10x) đánh dấu sàn và trần của phạm vi.

3/ PRICE là tín hiệu tiêu cực mạnh nhất. Trang mở bằng giá phát tín hiệu ý định thương mại. Tài chính là ngoại lệ duy nhất (1,16x), có lẽ vì "giá" ở đây nghĩa là phần trăm phí và so sánh lãi suất — chính là dữ liệu tham chiếu mà truy vấn tài chính tìm kiếm.

4/ CONSUMER_GOOD (thực thể phần mềm/sản phẩm) cho kết quả lẫn lộn. Tích cực trong Y tế (thực thể sản phẩm phát tín hiệu thương hiệu và công cụ đã được thiết lập) và Crypto (gọi tên giao thức và sản phẩm cụ thể là cốt lõi để trả lời truy vấn kỹ thuật).

5/ PHONE_NUMBER là tín hiệu tích cực trong Y tế (1,41x) và Giáo dục (1,40x). Gần như chắc chắn đây là proxy cho thương hiệu/tổ chức/nhà cung cấp đã thiết lập có sự hiện diện vật lý thực, không phải tín hiệu nghĩa đen "thêm số điện thoại vào trang".

Ý nghĩa thực tế:

1/ DATE- AI ưu tiên nội dung được cập nhật/làm mới như trong hướng dẫn AI Search Optimization và AI Mode đều được Infinity đề cập

2/ NUMBER - AI ưu tiên dữ kiện/số liệu.. mới cho việc kiểm chứng độ xác, kiểm tra thông tin có lỗi thời không và chất lượng thông tin

3/ PRICE - âm phổ quát cũng dễ giải thích: trang mở đầu bằng giá báo hiệu commercial intent (ý định thương mại). AI trong bối cảnh informational search ưu tiên nội dung giải thích hơn nội dung bán hàng.

4/ CONSUMER_GOOD - Phần mềm là công cụ là trung tính bởi tính chất kỹ thuật

5/ PHONE_NUMBER - là tín hiệu cho hành động gấp, khẩn cấp phù hợp với tiêu chuẩn của Y tế, Giáo dục (tư vấn telesales)

3/ Phát hiện đảo ngược Knowledge Graph

Dữ liệu cho thấy trang trích dẫn cao có trung bình 1,42 thực thể xác minh Knowledge Graph (KG), so với 1,75 cho trang trích dẫn thấp (lift: 0,81x).

Trang xây quanh thực thể KG nổi tiếng (thương hiệu lớn, tổ chức, người nổi tiếng) có xu hướng phủ chung chung, điều ChatGPT không ưu tiên. Trang trích dẫn cao dày đặc thực thể cụ thể, niche: một phương pháp cụ thể, một thống kê chính xác, một so sánh có tên. Nhiều thực thể niche này không hề có mục KG. Sự cụ thể đó là thứ AI tìm đến.

Hàm ý: theo đuổi mục Wikipedia, brand panel, hoặc xác minh KG là đòn bẩy sai. Thực thể cụ thể, niche (kể cả không có mục KG) vượt trội thực thể nổi tiếng.

Tổ hợp DATE + NUMBER cụ thể trong mở bài là thứ gần nhất với tín hiệu AI citation phổ quát mà bộ dữ liệu này tạo ra (phần 2 nội dung). Nhưng Tài chính đạt được điều tương tự qua dữ liệu giá và tính cụ thể địa lý.

Ý nghĩa thực tế:

1/ Không dùng AI để viết bài mà không không dữ liệu nghiên cứu riêng như: sản phẩm, thị trường, khách hàng

2/ Niche entity đại diện cho dữ liệu mới và hệ thống AI có xu hướng nhận vào cái mới hơn là Knowledge Graph có sẵn từ mô hình huấn luyện

4/ Cấu trúc heading: cam kết hoặc không dùng

Phần 2 cho thấy heading quan trọng cho trích dẫn. Câu hỏi tiếp: số lượng heading có dự đoán tỷ lệ trích dẫn không, và cấu trúc tối ưu thay đổi theo ngành không?

Đếm tổng heading (H1+H2+H3) trên tất cả URL được trích dẫn, phân thành 7 nhóm: 0, 1–2, 3–4, 5–9, 10–19, 20–49, 50+.

Tính tỷ lệ trích dẫn cao cho mỗi nhóm trên mỗi ngành.

Phát hiện giữ nguyên mọi ngành: 3–4 heading tệ hơn không dùng heading. Cấu trúc nửa vời gây nhầm lẫn cho điều hướng AI mà không cung cấp lợi ích đầy đủ của hệ phân cấp cam kết.

Ba kết luận từ phân tích cấu trúc heading:

1/ Phát hiện "20+ heading" từ Phần 2 là phát hiện riêng CRM/SaaS, không phải phổ quát. Áp dụng vào Y tế, Giáo dục hay Tài chính có thể chủ động kìm tỷ lệ trích dẫn.

2/ Nguyên tắc giữ nguyên mọi ngành: cam kết vào cấu trúc hoặc không dùng. Vùng giữa gây thiệt hại mọi ngành. Trang có cấu trúc đầy đủ với heading kèm điều kiện đúng mức sâu vượt trội trang nửa cấu trúc trong mọi ngành.

3/ 3–4 heading là vùng chết. Không ngoại lệ. Nếu chỉ có 3–4 heading, tốt hơn là bỏ hết hoặc thêm cho đủ ngưỡng ngành.

Ý nghĩa thực tế:

1/ Số lượng heading phụ thuộc vào ngành mà AI được training dựa trên mẫu (pattern) của các ngành như đã nói phần 1 của nội dung.

2/ Giữ nguyên tắc hoặc dùng heading hoặc không dùng. Các trang gov, edu thường là các trang không dùng heading. Điểm chính là cần nhất quán. Xem ví dụ ngành y tế.

5/ Nội dung của doanh nghiệp chiếm ưu thế, Reddit thì không

Bối cảnh: "Hiệu ứng Reddit" đã định hình lại tìm kiếm hữu cơ giữa 2024 và 2025. Reddit hay MXH tăng vọt trong kết quả Google, và nhiều team bắt đầu đầu tư vào hiện diện trên MXH như một phần của chiến lược nội dung Câu hỏi: ChatGPT có trích dẫn nội dung cộng đồng (Reddit, forum, MXH) ở mức đáng kể, hay nội dung doanh nghiệp/biên tập chiếm ưu thế?

Phương pháp: Phân loại URL trích dẫn thành UGC (Reddit, Quora, Stack Overflow, subdomain forum, Medium, Substack, Product Hunt, Tumblr) hoặc nội dung doanh nghiệp/biên tập. Tính tỷ trọng trích dẫn cho mỗi danh mục trên 98.217 trích dẫn trên 7 ngành.

Kết quả: nội dung doanh nghiệp chiếm 94,7% tổng trích dẫn. UGC gần như vô hình.

Giả định phổ biến trong ngành rằng AI cũng ưu tiên trích dẫn tiếng nói cộng đồng đã không được dữ liệu xác nhận ở phân tích này.

Ba kết luận từ phân tích này:

Thứ nhất, "hiệu ứng Reddit" trong SEO không tương quan đối với AI citation của ChatGPT. Trong hầu hết ngành, reddit.com chiếm 2 đến 5% tổng trích dẫn. Phát hiện này nhất quán với nghiên cứu ngành khác, bao gồm báo cáo từ Profound.

Thứ hai, với Tài chính và Y tế, UGC có giá trị AI citation gần bằng không. Đầu tư vào nội dung doanh nghiệp có cấu trúc, có thẩm quyền, với nguồn rõ ràng. Hiện diện cộng đồng có thể quan trọng vì lý do khác, nhưng không đóng góp đáng kể vào tỷ trọng trích dẫn AI trong các ngành này.

Thứ ba, với Crypto, Product Analytics và HR Tech, hiện diện cộng đồng có giá trị trích dẫn đo lường được. Thread so sánh Reddit chi tiết, bài Medium kỹ thuật, và câu trả lời forum nhà phát triển có cấu trúc có thể bổ sung phạm vi nội dung doanh nghiệp.

6/ Phát hiện này có ý nghĩa gì cho chiến lược AI visibility?

Xuyên suốt 4 phần nghiên cứu (Phần 1, 2, 3, 4), kết luận nhất quán là: AI citation không phải bài toán chất lượng viết bao gồm những tồn tại của Content SEO cũ (Đây là những gì hầu hết content writer, editor, và thậm chí SEO truyền thống gọi là "viết tốt.") như:

Mở bài dẫn dắt, xây bối cảnh
Văn phong mượt mà, cuốn hút
Hướng dẫn toàn diện quá nhiều góc độ
Ngôn ngữ quảng cáo, nhiều tính từ
Câu dài, lan man, không rõ mệnh đề
Kết luận vòng vo

Phần 3 cho thấy đây là bài toán kiến trúc nội dung: trang đơn ý định, mỏng bị khóa cấu trúc bất kể viết tốt đến đâu. Phần 4 cho thấy logic tương tự áp dụng bên trong nội dung: tín hiệu viết phổ quát rất ít, hầu hết phụ thuộc ngành.

Bảng tín hiệu viết tổng hợp là biểu đồ quan trọng nhất trong phân tích này. Không phải vì nó chỉ bạn làm gì, mà vì nó cho thấy bao nhiêu lời khuyên AI SEO/GEO/AEO hiện nay không sống sót khi kiểm tra ở nhiều ngành. Độ dài, sử dụng danh sách/Bullet points, số lượng thực thể trong NLP, tất cả phẳng hoặc tiêu cực ở cấp tổng hợp. Tín hiệu hiệu quả mang tính ngành cụ thể và nhỏ hơn đồng thuận ngành gợi ý.

Kết nối 4 phần thành hệ thống:

Bài học thực tế của part 4 này, lật lại vấn đề và đi sâu hơn vào bản chất:

1/ Khi nhìn lại tất cả các phần, tất cả đều là nguyên tắc cơ bản của việc viết chuyên nghiệp, không phải nguyên tắc SEO/GEO/AEO.

Câu khẳng định trực tiếp/BLUF/hedging là quy tắc cơ bản của báo chí và bài nghiên cứu học thuật.
Entity density cụ thể (tên người, tổ chức, số liệu) là nguyên tắc biên tập kiểm chứng được, không nói chung chung... thể hiện cho việc có chuyên môn domain
Hệ thống tiêu đề phân cấp (H1, H2, H3) là quy tắc định dạng chuẩn trong soạn thảo văn bản, được dạy từ tin học văn, tồn tại độc lập và trước SEO, không phải phát minh của SEO.
... và rất nhiều điểm khác.

2/ Tiêu chuẩn viết chuyên nghiệp tạo ra nội dung tốt → LLMs nhận diện tín hiệu của nội dung tốt của ngành → hình thành nguyên tắc SEO/GEO/AEO. Nhưng các hướng dẫn SEO/GEO/AEO ĐI theo chiều ngược: đưa checklist SEO/GEO/AEO trước → mới tạo ra nội dung tốt. Chiều nhân quả bị lật.

3/ Điều này cũng hàm ý kỷ nguyên AI là thời dành cho những nhà sáng tạo nội dung thực sự: Việc bạn cần là hiểu domain (ngành), các quy tắc trình bày nội dung theo ngành/kênh chứ không phải tối ưu theo một checklist.

7/ Phương pháp nghiên cứu

Phân tích ~98.000 dòng trích dẫn ChatGPT từ khoảng 1,2 triệu câu trả lời ChatGPT (dữ liệu Gauge). Dữ liệu tách riêng trên 7 ngành đã xác minh (B2B SaaS, Tài chính, Y tế, Giáo dục, Crypto, HR Tech, Product Analytics).

Phân tích tín hiệu viết: so sánh trang trích dẫn cao (3+ prompt) với trích dẫn thấp trên 7 chỉ số. Phân tích loại thực thể: Google Natural Language API trên 1.000 ký tự đầu mỗi URL, 5.000 trang. Phân tích heading: đếm H1+H2+H3, phân 7 nhóm, tính tỷ lệ trích dẫn cao mỗi nhóm mỗi ngành. Phân tích UGC: phân loại 98.217 URL trích dẫn thành UGC hoặc doanh nghiệp/biên tập.

Đây là Phần 4 trong series "Nghiên cứu cơ chế trích dẫn AI". Infinity vẫn sẽ tiếp tục ra các nội dung mới từ series về AI Citation này. Bạn đọc quan tâm hãy thường xuyên quay trở lại Advertising Vietnam để tìm hiểu các nội dung mới nhất lĩnh vực AI Marketing từ Infinity và các chuyên gia khác.