Nghiên cứu AI Citation (Phần 2): AI "chú ý" vào đâu trong nội dung?

Phân tích kết quả ChatGPT cho thấy AI đọc nội dung giống biên tập viên bận rộn, không phải sinh viên kiên nhẫn

AI Research @ Infinity16 Thg 05 2026

Phân tích kết quả ChatGPT cho thấy AI đọc nội dung giống biên tập viên bận rộn, không phải sinh viên kiên nhẫn. 44,2% trích dẫn đến từ 30% đầu bài viết — một phân bổ nhất quán đến mức P-Value đạt 0,0 (không thể bác bỏ về mặt thống kê). Đồng thời, 5 đặc điểm ngôn ngữ tách biệt rõ ràng nội dung được trích dẫn khỏi nội dung bị bỏ qua.

Tóm tắt các điểm chính

Trong nội dung phần 1, từ “Nghiên cứu mới từ Columbia University” chúng biết “Chiến lược phổ quát” đã được xác định: mô tả dài hơn, giọng thuyết phục cao, có yếu tố thổi phồng, không cần thêm thông tin thực chất mới. Chiến lược này hiệu quả xuyên danh mục, từ đồ gia dụng sang điện tử và thời trang. Nội dung hôm nay sẽ cho chúng ta biết cách AI đọc nội dung của bạn như thế nào?

44,2% trích dẫn ChatGPT đến từ 30% đầu bài viết - mô hình "ski ramp". 31,1% từ phần giữa, 24,7% từ phần cuối.
Đáy 10% cuối gần như vô hình. Bên trong đoạn văn, 53% trích dẫn đến từ giữa đoạn, không phải câu đầu. Cho nên, AI đọc sâu, không chỉ quét câu mở.
5 đặc điểm nội dung được trích dẫn: ngôn ngữ khẳng định trực tiếp, cấu trúc hỏi-đáp, mật độ thực thể cao (~20%), giọng phân tích cân bằng (subjectivity ~0,47), và văn phong dễ đọc cấp doanh nghiệp (Flesch-Kincaid ~16).
P-Value 0,0 trên 18.012 trích dẫn đã xác minh, chia thành 4 batch ngẫu nhiên với kết quả gần đồng nhất.

AI đọc nội dung ở vị trí nào trong trang?

Trong 20 năm, SEO viết "ultimate guide" thiết kế để giữ người đọc trên trang: mở bài dài, kéo insight qua toàn bài, xây kịch tính đến CTA cuối cùng. Dữ liệu cho thấy phong cách viết này không phù hợp cho AI visibility. Để được trích dẫn trong kỷ nguyên AI, cần viết như một nhà báo - biên tập viên.

Phân tích của Infinity với 18.012 trích dẫn đã xác minh từ tổng bộ kết quả ChatGPT cho thấy phân bổ trích dẫn theo vị trí tuân theo mô hình "ski ramp" — dốc đều từ đầu đến cuối.

P-Value của phân tích này là 0,0 (p < 0,0001). Dữ liệu được chia thành 4 batch ngẫu nhiên (randomized validation splits) để kiểm tra tính ổn định. Batch 1 phẳng hơn một chút, nhưng batch 2, 3 và 4 gần đồng nhất. Kết luận: mô hình ski ramp ổn định across toàn bộ trích dẫn.

Hai giải thích cho mô hình ski ramp:

Huấn luyện: LLM được huấn luyện trên báo chí và bài nghiên cứu học thuật — cả hai đều tuân theo cấu trúc BLUF (Bottom Line Up Front: kết luận đặt trước). Model học rằng thông tin có "trọng số" cao nhất luôn nằm ở đầu bài.

Hiệu quả: Dù model hiện đại đọc được tới 1 triệu token cho mỗi tương tác (~700.000–800.000 từ), chúng hướng tới thiết lập khung hiểu (frame) nhanh nhất có thể, rồi diễn giải mọi thứ khác qua khung đó.

AI chỉ đọc câu đầu mỗi đoạn hay đọc sâu hơn?

Mô hình ski ramp xác nhận xu hướng vĩ mô: AI tập trung vào phần đầu trang. Nhưng ở cấp vi mô — bên trong từng đoạn văn — hành vi khác.

Phân tích sâu 1.000 bài viết có số lượng trích dẫn cao cho thấy:

53% trích dẫn đến từ giữa đoạn văn. ChatGPT không "lười" chỉ đọc câu đầu. Nó đọc sâu và tìm câu có "information gain" cao nhất — câu chứa nhiều thực thể liên quan nhất và bổ sung nhiều thông tin mở rộng nhất — bất kể câu đó ở vị trí đầu, giữa hay cuối đoạn.

Kết hợp hai phát hiện: cơ hội trích dẫn cao nhất nằm ở các đoạn văn trong 20% đầu trang, nhưng bên trong mỗi đoạn, không cần ép câu trả lời vào câu đầu tiên. AI tìm câu giàu thông tin nhất, bất kể vị trí.

5 đặc điểm nào khiến nội dung được trích dẫn nhiều hơn?

Ngoài vị trí, phân tích 11.022 trích dẫn cho "DNA ngôn ngữ" cho thấy 5 đặc điểm tách biệt nội dung "thắng" (được trích dẫn) khỏi nội dung "thua" (bị bỏ qua).

1. Ngôn ngữ khẳng định trực tiếp

Nội dung được trích dẫn có khả năng chứa ngôn ngữ khẳng định ("được định nghĩa là", "đề cập đến", "X là Y") cao gấp gần 2 lần so với nội dung bị bỏ qua (36,2% so với 20,2%). Mối quan hệ giữa các khái niệm phải rõ ràng, dù không nhất thiết phải là định nghĩa từ điển.

Giải thích kỹ thuật: trong cơ sở dữ liệu vector, từ "là" hoạt động như cầu nối mạnh giữa chủ thể và định nghĩa. Khi người dùng hỏi "X là gì?", model tìm đường vector mạnh nhất — gần như luôn là cấu trúc "X là Y" trực tiếp. Model ưu tiên văn bản cho phép giải quyết truy vấn trong một câu (Zero-Shot) thay vì tổng hợp từ 5 đoạn.

2. Cấu trúc hỏi-đáp

Nội dung được trích dẫn có khả năng chứa dấu hỏi cao gấp 2 lần (18% so với 8,9%). "Viết dạng hội thoại" ở đây nghĩa là sự phối hợp giữa câu hỏi và câu trả lời ngay sau đó.

78,4% trích dẫn có câu hỏi đến từ heading. AI đang đối xử heading (H2) như prompt của người dùng, và đoạn văn ngay bên dưới như câu trả lời.

Cấu trúc "thắng" hoạt động nhờ hiệu ứng "entity echoing": heading hỏi về SEO, từ đầu tiên của câu trả lời cũng là SEO. Thực thể lặp lại tạo tín hiệu mạnh cho model.

3. Mật độ thực thể cao

Văn bản tiếng Anh thông thường có mật độ thực thể (danh từ riêng: thương hiệu, công cụ, tên người) khoảng 5–8%. Nội dung được trích dẫn nhiều có mật độ 20,6%.

Mốc 5–8% là benchmark ngôn ngữ học từ các bộ dữ liệu chuẩn như Brown Corpus (1 triệu từ tiếng Anh đại diện) và Penn Treebank (văn bản Wall Street Journal).

LLM hoạt động theo xác suất. Lời khuyên chung chung ("chọn công cụ tốt") mơ hồ và rủi ro, nhưng thực thể cụ thể ("chọn Salesforce") được neo và có thể xác minh. Model ưu tiên câu chứa "mỏ neo" (thực thể) vì chúng giảm perplexity (mức độ nhầm lẫn) của câu trả lời.

Câu có 3 thực thể mang nhiều "bit" thông tin hơn câu có 0 thực thể. Đừng ngại nhắc tên cụ thể — kể cả đối thủ.

4. Giọng phân tích cân bằng (Subjectivity ~0,47)

Nội dung được trích dẫn có điểm Subjectivity cân bằng ở mức 0,47. Subjectivity Score là thước đo NLP chuẩn, đo lượng quan điểm cá nhân, cảm xúc hoặc đánh giá trong văn bản, thang từ 0,0 (thuần dữ kiện) đến 1,0 (thuần quan điểm).

AI không muốn văn bản khô kiểu Wikipedia (0,1), cũng không muốn quan điểm cảm tính (0,9). AI muốn "giọng phân tích": dữ kiện kết hợp diễn giải cách dữ kiện đó áp dụng trong thực tế.

5. Văn phong dễ đọc cấp doanh nghiệp (FK ~16)

Nội dung được trích dẫn nhiều có điểm Flesch-Kincaid ~16 (cấp đại học), so với nội dung bị bỏ qua ở mức 19,1 (cấp học thuật/tiến sĩ). Cụ thể, 16 tương đương văn phong The Economist hoặc Harvard Business Review.

Ngay cả với chủ đề phức tạp, sự phức tạp về văn phong có thể gây hại. Điểm FK 19 nghĩa là câu dài, quanh co, chứa đầy thuật ngữ đa âm tiết. AI ưu tiên cấu trúc chủ-vị-bổ rõ ràng với câu ngắn đến trung bình, vì dễ trích xuất dữ kiện hơn.

Điều này bác bỏ giả thuyết rằng AI thưởng cho nội dung "đơn giản hóa quá mức" (dumbing down). AI thưởng cho sự rõ ràng ở cấp chuyên nghiệp, không phải sự đơn giản ở cấp phổ thông.

Phát hiện này thay đổi cách viết nội dung thế nào?

Mô hình ski ramp đo lường sự lệch pha giữa viết kể chuyện (narrative writing) và truy xuất thông tin (information retrieval). Thuật toán diễn giải kỹ thuật "hé lộ từ từ" như thiếu tự tin. Nó ưu tiên phân loại thực thể và dữ kiện ngay lập tức.

Nội dung có AI visibility cao hoạt động giống bản tóm tắt có cấu trúc (structured briefing) hơn là câu chuyện.

Điều này áp đặt "thuế rõ ràng" (clarity tax) lên người viết. Nội dung thắng trong bộ dữ liệu này dựa vào từ vựng cấp doanh nghiệp và mật độ thực thể cao. Nhưng khoảng cách giữa sở thích của người đọc và yêu cầu của máy đang thu hẹp: trong viết doanh nghiệp, người đọc cũng quét tìm insight. Đặt kết luận lên đầu phục vụ cả cấu trúc thuật toán lẫn thời gian hạn chế của người đọc.

Đây là nền tảng thực hành cho tối ưu AI search: cấu trúc nội dung quyết định tỷ lệ trích dẫn nhiều hơn chiều sâu nội dung ở cuối bài. Topical authority cung cấp chiều sâu, nhưng chiều sâu đó cần được đặt đúng vị trí — 20% đầu trang — để AI trích dẫn.

Phương pháp nghiên cứu

Bộ dữ liệu: kết quả tìm kiếm và câu trả lời AI từ ChatGPT, cùng các trích dẫn. Dữ liệu cung cấp bởi Gauge. Mỗi URL trích dẫn được thu thập nội dung web tại thời điểm trả lời để tạo tương quan trực tiếp giữa nội dung web thực và câu trả lời. Cả HTML thô lẫn plaintext đều được thu thập.

Từ bộ dữ liệu tổng, 18.012 trích dẫn đã xác minh được tách riêng cho phân tích vị trí, và 11.022 trích dẫn cho phân tích "DNA ngôn ngữ".

Công cụ đối sánh ("Harvester Engine"): Sử dụng semantic embeddings (Neural Network). Model: all-MiniLM-L6-v2 — sentence-transformer model hiểu nghĩa, không chỉ từ khóa. Quy trình: chuyển mọi câu trả lời AI và mọi câu trong văn bản nguồn thành vector 384 chiều, đối sánh bằng cosine similarity. Ngưỡng lọc nghiêm ngặt (0,55) loại bỏ đối sánh yếu hoặc hallucination, chỉ phân tích trích dẫn có độ tin cậy cao.

Các chỉ số đo lường: Positional Depth (vị trí chính xác của văn bản trích dẫn trong HTML) và Linguistic DNA (so sánh "winners" vs. "losers" bằng NLP: Definition Rate, Entity Density, Subjectivity).

Đây là Phần 2 trong series "Nghiên cứu cơ chế trích dẫn AI". Infinity vẫn sẽ tiếp tục ra các nội dung mới từ series về AI Citation này. Bạn đọc quan tâm hãy thường xuyên quay trở lại Advertising Vietnam để tìm hiểu các nội dung mới nhất lĩnh vực AI Marketing từ Infinity và các tác giả khác.