Nội dung gốc không lên top, trang sao chép lại vào TOP10 丨 Thuật toán “trang trại nội dung” của Google đã mất tác dụng

本文作者:Don jiang

Trong ba năm qua, tần suất cập nhật thuật toán chính của Google đã tăng 47%, nhưng vẫn không thể ngăn chặn sự mở rộng điên cuồng của các trang trại nội dung (Content Farm)—những trang web này sử dụng AI để viết lại bài, thao túng hệ thống trang web, và công nghệ mô phỏng hành vi người dùng, cướp đi hơn 2 triệu bài viết gốc mỗi ngày, xây dựng một chuỗi cung ứng đen khổng lồ.

Khi giá trị của nội dung gốc liên tục giảm trong hệ thống đánh giá của thuật toán, chúng ta phải đặt câu hỏi: Hệ thống đánh giá “EEAT (Chuyên môn, Uy tín, Độ tin cậy)” mà Google công bố có trở thành công cụ để các trang trại nội dung kiếm lời hàng loạt hay không?

Hệ sinh thái nội dung “tiền xấu đẩy lùi tiền tốt”

Vào tháng 8 năm 2023, blog công nghệ “CodeDepth” đã công bố một bài viết dài 6000 từ về phân tích sâu kiến trúc mô hình Transformer, tác giả đã mất 3 tuần để hoàn thành việc suy luận thuật toán và xác minh thử nghiệm.
Sau khi bài viết được công bố, Google mất 11 ngày để lập chỉ mục, và thứ hạng cao nhất chỉ ở trang 9. Trong khi đó, trang tổng hợp “DevHacks” đã thu thập bài viết này bằng công cụ quét phân tán, sau đó sử dụng AI để tái cấu trúc các đoạn văn và chèn 30 từ khóa nóng, bài viết đã được Google lập chỉ mục trong vòng 2 giờ và chỉ trong 48 giờ đã đạt vị trí thứ 3 trong kết quả tìm kiếm của từ khóa mục tiêu.

Điều mỉa mai hơn là, khi bài viết gốc bị Google giảm xếp hạng tự động vì “nội dung trùng lặp”, trang thu thập lại được xem là “trải nghiệm người dùng tốt hơn” nhờ tỷ lệ nhấp chuột (CTR 8.7% so với trang gốc 2.1%) và tốc độ tải trang nhanh hơn (1.2 giây so với 3.5 giây), khiến thuật toán đánh giá là “trải nghiệm người dùng tối ưu” và tiếp tục đứng đầu trong bảng xếp hạng.

Hai trang “CodeDepth” và “DevHacks” được đề cập ở trên là các ví dụ hư cấu được sử dụng để mô phỏng hiện tượng đấu tranh thuật toán giữa trang trại nội dung và người sáng tạo gốc, nhưng hiện tượng này là có thật

Do liên quan đến các ngành công nghiệp đen và tranh chấp bản quyền, hầu hết các trang bị ảnh hưởng thực tế chọn ẩn danh để tránh bị trả thù.

Thông qua công cụ phân tích Ahrefs, chúng tôi phát hiện rằng nội dung gốc trung bình mất 14.3 ngày để vào TOP 100, trong khi các trang thu thập chỉ cần 3.7 ngày; về việc xây dựng liên kết ngoài, các bài viết gốc nhận được liên kết ngoài tự nhiên với tốc độ 2-3 liên kết mỗi tuần, trong khi các trang thu thập thông qua việc mua tên miền hết hạn đã có thể chèn hơn 500 liên kết rác mỗi ngày.

Nội dung gốc mất trung bình 14.3 ngày để vào TOP 100
Điều gây sốc hơn là, theo sự giám sát của SEMrush, các trang trại nội dung đã giả mạo “ngày xuất bản” (đánh dấu nội dung ăn cắp là được xuất bản sớm hơn bài viết gốc từ 1-2 tuần) để lừa dối thuật toán “trọng số tính kịp thời” của Google, khiến 70% bài viết gốc bị đánh dấu là “nội dung trùng lặp khả nghi” trong kết quả tìm kiếm.

Google định nghĩa “nội dung chất lượng” như thế nào?

Vào năm 2022, Google chính thức đưa “EEAT” (Chuyên môn, Uy tín, Độ tin cậy, Kinh nghiệm) vào trong Hướng dẫn đánh giá chất lượng tìm kiếm, và tuyên bố đây là tiêu chuẩn vàng để đánh giá chất lượng nội dung.
Nhưng trên thực tế, thuật toán lại rơi vào các vấn đề sau:

  1. Cạm bẫy thờ phụng chứng chỉ: Một trang trại nội dung y tế “HealthMaster” thuê các nhà văn không có bằng cấp hành nghề y, nhưng lại thêm huy hiệu “Chứng nhận từ Hiệp hội Y khoa Hoa Kỳ” giả mạo ở dưới cùng trang (thông qua Schema để giả mạo), thành công lừa dối hệ thống đánh giá E-A-T của Google, khiến lưu lượng truy cập tăng 320% (dữ liệu từ SimilarWeb)
  2. Paradoxe uy tín: Tài liệu bằng sáng chế của Google (US2023016258A1) cho thấy, thuật toán coi “số lượng liên kết ngoài” là chỉ số cốt lõi của uy tín, khiến các trang thu thập có thể mua liên kết từ các trang web đã chết (như tên miền của các tổ chức giáo dục đã hết hạn) để nhanh chóng nâng cao trọng số
  3. Độ tin cậy cơ học: Các trang trại nội dung sử dụng công cụ (như ClearScope) để tạo ra nội dung đáp ứng “tiêu chuẩn khả năng đọc” (độ dài đoạn văn, mật độ tiêu đề), thậm chí thêm các khối “tài liệu tham khảo” giả mạo, khiến điểm đánh giá của máy vượt qua các bài viết sâu sắc của nội dung gốc

Việc lạm dụng hệ thống quy tắc thuật toán một cách có hệ thống

1. Dây chuyền sản xuất nội dung giả mạo

  • AI viết lại bài: Sử dụng GPT-4 + Undetectable.ai để tái cấu trúc nội dung gốc, tránh bị phát hiện đạo văn Ví dụ: Trang tổng hợp “TechPulse” đã sử dụng phương pháp này để viết lại bài báo công nghệ từ “The New York Times”, công cụ kiểm tra độ gốc bài viết Originality.ai chấm điểm 98%, trong khi nội dung thực tế là sự kết hợp của máy móc
  • Chiếm dụng xuyên ngữ: Dịch nội dung gốc từ tiếng Anh → Đức → Nga → Trung Quốc → dịch ngược lại sang tiếng Anh để tạo ra văn bản “giả mạo gốc” Dữ liệu: Theo thống kê của W3Techs, trong TOP 1000 trang web năm 2023, 23% các trang “đa ngôn ngữ” thực chất là trang trại nội dung che giấu

2. Tác động của việc thao túng hệ thống trang web

  • Mạng lưới liên kết ngoài ký sinh: Đăng ký hàng trăm tên miền hết hạn (như các trang báo địa phương đã đóng cửa), đăng bài từ các trang thu thập lên các tên miền này, rồi sử dụng Private Blog Network (PBN) để tạo liên kết ngoài cho trang chính Công cụ: Ahrefs đã phát hiện ra một nhóm thu thập “Liên minh Nội dung AI” có tới 217 tên miền và tạo ra 127.000 liên kết ngoài trong một tháng

3. Dự án gian lận hành vi người dùng

  • Điều khiển tỷ lệ nhấp chuột: Sử dụng proxy IP pool (Nền tảng BrightData) để mô phỏng hành động nhấp chuột của người dùng, từ đó tăng tỷ lệ nhấp CTR của từ khóa mục tiêu từ 3% lên 15%
  • Giả mạo thời gian ở lại trên trang: Sử dụng công cụ Puppeteer Extra để tự động cuộn trang và nhấp vào các nút, khiến Google hiểu lầm rằng nội dung đang thu hút sự chú ý của người dùng

Đọc được bởi máy ≠ Hữu ích cho con người

Thiết kế thí nghiệm

Tạo hai bài viết về cùng một chủ đề:

  • Bài A: Phân tích kỹ thuật sâu bởi chuyên gia (bao gồm ví dụ mã, xác thực dữ liệu)
  • Bài B: Nội dung được tối ưu hóa bằng SurferSEO từ trang trại nội dung (chèn 20 từ khóa LSI, thêm module FAQ)

Đăng tải lên một tên miền mới với độ uy tín tương đương, không xây dựng liên kết ngoài

Kết quả

  • Sau 3 ngày, bài B xếp hạng trung bình cao hơn bài A 8,2 vị trí trên 10 từ khóa mục tiêu
  • Google Search Console cho thấy, điểm số “Core Web Vitals” của bài B cao hơn bài A 34% (do sử dụng tải chậm và CDN tiền tải)

Vấn đề với thuật toán của Google

Mặc dù Google đã cập nhật hệ thống chống spam “SpamBrain” vào năm 2023, nhưng các đội ngũ tội phạm mạng vẫn tiếp tục tìm cách vượt qua hệ thống này với các phương thức sau:

  • Đào tạo AI đối kháng: Sử dụng các quy tắc chống spam của Google làm dữ liệu huấn luyện, khiến GPT-4 tạo ra nội dung có thể vượt qua kiểm tra
  • Chiến lược lẩn tránh động: Khi một trang web bị giảm xếp hạng, các tên miền khác trong hệ thống tự động điều chỉnh tần suất thu thập và kết hợp từ khóa
  • Vùng pháp lý xám: Đặt máy chủ ở các khu vực pháp lý như Campuchia, Saint Kitts, tránh khiếu nại DMCA

Vụ việc thực tế:

Vào tháng 9 năm 2023, Google đã cấm trang trại nội dung nổi tiếng “InfoAggregate”, nhưng các nhà điều hành đã chuyển toàn bộ nội dung sang tên miền mới “InfoHub” trong vòng 72 giờ, và sử dụng Cloudflare Workers để thay đổi dấu vân tay tên miền động, khiến hiệu quả cấm giảm xuống 90%.

7 Chiến lược vượt qua của trang trại nội dung

Theo một cuộc khảo sát của The Wall Street Journal, quy mô thị trường trang trại nội dung toàn cầu vào năm 2023 đã đạt 7,4 tỷ USD. Hệ thống gian lận công nghiệp của các trang trại nội dung mỗi ngày bơm vào cơ sở dữ liệu của Google 4,7 triệu bài viết sao chép, tương đương với việc “bản sao hợp pháp” ra đời mỗi mili giây.

1. Máy chủ phân tán + Tăng tốc CDN

Nguyên lý: Thuê hàng trăm máy chủ trên toàn cầu, kết hợp với mạng phân phối nội dung (CDN), khiến Google Crawler nghĩ rằng đây là “trang web có độ phổ biến cao”

So sánh: Kẻ trộm sử dụng 100 đường cao tốc để vận chuyển hàng ăn cắp, cảnh sát (Google) hiểu nhầm đó là một công ty vận chuyển hợp pháp

2. Lạm dụng dữ liệu có cấu trúc

Nguyên lý: Giả mạo ngày phát hành hoặc chức danh của tác giả (ví dụ: “Kỹ sư trưởng của Google”) trong mã nguồn của trang web để đánh lừa thuật toán về độ mới của nội dung

Ví dụ: Một bài viết sao chép từ năm 2023 được đánh dấu là “phát hành vào năm 2020”, khiến bài viết gốc bị đánh giá là “sao chép”

3. Cướp từ khóa nóng

Nguyên lý: Dùng bot theo dõi các nền tảng như Reddit, Zhihu để lấy từ khóa nóng mới nổi và nhanh chóng tạo ra một lượng lớn “nội dung giả nóng”

Dữ liệu: Một trang thu thập nội dung đã chiếm lĩnh top 3 tìm kiếm chỉ 24 giờ trước khi OpenAI công bố từ khóa “Sora Insider Analysis”

4. Giả lập hành vi người dùng

Nguyên lý: Dùng bot giả lập hành vi đọc của người dùng thật (cuộn trang, nhấn nút) để tăng tỷ lệ click và thời gian ở lại trang

Công cụ: Proxy IP từ BrightData + kịch bản tự động trên Chrome, giả lập 10.000 “tương tác người dùng” trong 1 giờ

5. Nhà máy liên kết ngược

Nguyên lý: Mua tên miền từ các trang web chính phủ hoặc giáo dục đã ngừng hoạt động (ví dụ: trang web của phòng thí nghiệm của một trường đại học đóng cửa) và đặt liên kết ngược cho trang trại nội dung

Hiệu quả: Dùng trọng lượng lịch sử từ tên miền .edu của Đại học Harvard, trang web mới của trang trại nội dung được “đánh giá uy tín” chỉ trong 3 ngày

6. Giả mạo đa ngôn ngữ

Nguyên lý: Dịch nội dung tiếng Anh sang tiếng Đức → Arập → Nhật → dịch ngược lại sang tiếng Anh, tạo ra “nội dung giả mà hệ thống không thể nhận ra”

Kết quả kiểm tra: Sau khi dịch qua Google Translate 3 lần, nội dung sao chép có độ nguyên bản 89% khi kiểm tra với Originality.ai

7. Kỹ thuật ghép AI

Nguyên lý: Viết lại bằng GPT-4 + chỉnh sửa ngữ pháp bằng Grammarly + tạo hình ảnh, tạo ra “bài viết ghép nhìn như chuyên nghiệp” trong vòng 1 giờ

Cấu trúc điển hình: 30% tóm tắt nội dung gốc + 40% thuật ngữ Wikipedia + 30% liên kết sản phẩm Amazon

Tại sao những chiến lược này lại có thể nghiền nát nội dung gốc?

Bởi vì sự kết hợp của 7 phương pháp tạo ra dây chuyền công nghiệp “thu thập → viết lại → tăng trọng số → kiếm tiền”

5 Nguyên nhân chính gây ra sai sót trong quyết định của thuật toán

Nguyên nhân 1: “Cuộc chiến dữ liệu trần” của các trang web nhỏ và trung bình

Mâu thuẫn chính: Google yêu cầu triển khai dữ liệu có cấu trúc (Schema Markup, biểu đồ tri thức), nhưng các nền tảng CMS (như WordPress) có tính tương thích thấp với plugin, khiến các blogger độc lập không thể truyền tải thông tin quan trọng

Dữ liệu chứng minh

  • Người tạo nội dung gốc: Chỉ 12% blog cá nhân sử dụng đúng cấu trúc Article hoặc HowTo (Search Engine Journal khảo sát)
  • Trang trại nội dung: 100% lạm dụng NewsArticleSpeakable để giả mạo uy tín (Kết quả quét từ SEMrush)

Hậu quả:Thuật toán không thể nhận diện loại nội dung của người tạo gốc và nhầm lẫn là “nội dung có mật độ thông tin thấp”

Nguyên nhân 2: Sự thao túng tần suất cập nhật

Thiên lệch của thuật toán: Google trao trọng số xếp hạng cao gấp 2.3 lần cho các trang web cập nhật hàng ngày (do tính “mới mẻ” của nội dung, theo nghiên cứu của Moz)

So sánh thực tế

  • Người tạo nội dung gốc: Viết bài phân tích kỹ thuật sâu mất 2-3 tuần (bao gồm kiểm tra mã và tạo biểu đồ)
  • Trang trại nội dung: Sử dụng Jasper.ai + Canva để sản xuất 20 bài “Học XX trong 10 phút” mỗi ngày

Trường hợp: Bài viết “Nguyên lý toán học của mô hình khuếch tán” của nhà nghiên cứu Lynn bị giảm xếp hạng vì cập nhật mỗi tháng, trong khi trang trại nội dung “AIGuide” cập nhật 50 bài mỗi ngày và lượng truy cập vượt qua gấp 4 lần

Yếu tố 3: Lạm dụng cơ chế bỏ phiếu từ liên kết ngoài

Lỗ hổng cơ chế: Google xem liên kết ngoài là “quyền bỏ phiếu” nhưng không thể phân biệt giữa giới thiệu tự nhiên và liên kết ngoài từ các hoạt động SEO đen.

Sự thật dữ liệu:

  • Liên kết ngoài tự nhiên: Nội dung gốc cần trung bình 6.7 tháng để tích lũy 30 liên kết ngoài chất lượng cao (thống kê từ Ahrefs)
  • Liên kết ngoài gian lận: Các trang thu thập dữ liệu sử dụng PBN (Mạng blog riêng) để chèn hơn 500 liên kết ngoài mỗi ngày, trong đó 87% đến từ các trang chính phủ/giao dục đã bị đóng (theo Spamzilla)

Hiện thực mỉa mai: Trang web của một phòng thí nghiệm đại học bị hacker mua lại, trở thành “kho phiếu quyền lực” của 50 trang thu thập dữ liệu.

Yếu tố 4: Cạm bẫy chứng nhận uy tín

Định kiến thuật toán: Google ưu tiên chỉ mục các tác giả có email tổ chức (.edu/.gov), trong khi tác giả cá nhân tự động bị coi là “cấp độ nguồn tin thấp”.

Kiểm nghiệm thực nghiệm:

Giải thích bài báo AI giống nhau:

  1. Được xuất bản trên blog cá nhân (tác giả: Tiến sĩ nghiên cứu sinh tại Stanford): Xếp hạng trang thứ 2
  2. Được xuất bản trên trang thu thập dữ liệu (tác giả giả “Nghiên cứu viên MIT AI Lab”): Xếp hạng trang thứ 3

Hậu quả: Nội dung của các nhà phát triển ẩn danh và nhà nghiên cứu độc lập bị đánh giá thấp một cách hệ thống.

Yếu tố 5: “Suy nghĩ sâu sắc” trở thành kẻ thù của thuật toán

Cơ chế ngược lại với lẽ thường:

  • Google coi “tỷ lệ thoát trang cao” và “thời gian dừng lại ngắn” là tín hiệu tiêu cực
  • Nhưng các bài viết kỹ thuật sâu sắc cần thời gian đọc hơn 15 phút, dẫn đến việc người dùng thường đóng trang giữa chừng

So sánh dữ liệu:

  • Trang thu thập dữ liệu: Thời gian ở lại trung bình là 1 phút 23 giây (người dùng nhanh chóng quét từ khóa rồi rời đi) → Được đánh giá là “thỏa mãn yêu cầu hiệu quả”
  • Trang gốc: Thời gian ở lại trung bình là 8 phút 17 giây (người dùng đọc kỹ và ghi chú) → Thuật toán sai lầm đánh giá là “nội dung không đủ hấp dẫn”

Trường hợp điển hình: Các câu hỏi kỹ thuật trên Stack Overflow với “tỷ lệ thoát trang cao” thường bị “bài viết dạng danh sách” của các trang nông trại nội dung áp đảo.

Đối phó của Google và những hạn chế

Năm 2023, Google tuyên bố đã xóa 2.5 tỷ trang web rác, nhưng theo dõi từ SEMrush cho thấy lưu lượng truy cập của các nông trại nội dung lại tăng 18%, cho thấy sự thất bại của Google.

Cập nhật hệ thống chống rác SpamBrain

Nguyên lý kỹ thuật:

  • Sử dụng mạng nơ-ron đồ thị (GNN) để nhận diện mối quan hệ của các nhóm trang web, phiên bản 2023 thêm module “phát hiện mẫu lưu lượng bất thường”
  • Tuyên bố có thể nhận diện 90% nội dung rác tạo bởi AI (theo blog chính thức của Google)

Hiệu quả thực tế:

Vượt qua: Các đội nhóm SEO đen sử dụng quy tắc kiểm tra của SpamBrain để huấn luyện GPT-4 tạo ra “rác hợp pháp” có thể vượt qua kiểm tra.

Trường hợp điển hình: Một trang thu thập dữ liệu sử dụng “trình tạo mẫu đối kháng” tạo ra nội dung khiến tỷ lệ sai sót của SpamBrain lên đến 74% (thử nghiệm của SERPstat)

Chi phí từ việc đánh giá sai: Trong bản cập nhật thuật toán tháng 8 năm 2023, 12% blog học thuật bị đánh giá sai là trang web rác (khiếu nại tăng mạnh trên diễn đàn WebmasterWorld)

Đánh giá chất lượng thủ công (QRaters)

Cơ chế hoạt động:

  • Hơn 10,000 nhân viên hợp đồng toàn cầu thủ công đánh giá nội dung đáng ngờ theo “Hướng dẫn đánh giá chất lượng”
  • Tiêu chí đánh giá: Độ phù hợp với EEAT, tính chính xác của sự kiện, trải nghiệm người dùng

Hạn chế:

  • Khoảng cách văn hóa: QRaters chủ yếu là cư dân các quốc gia nói tiếng Anh, không thể đánh giá hiệu quả nội dung không phải tiếng Latin (ví dụ: tỷ lệ bỏ sót SEO đen của Trung Quốc lên đến hơn 60%)
  • Hạn chế về hiệu suất: Mỗi người chỉ có thể đánh giá trung bình 200 mục mỗi ngày, chỉ có thể bao quát 0.003% nội dung mới (dẫn chứng từ tài liệu nội bộ của Google)
  • Phụ thuộc vào mẫu: Các trang nông trại nội dung có thể giành được 82 điểm trên 100 trong bảng đánh giá của QRater bằng cách thêm vào các mô-đun như “Điều khoản từ chối trách nhiệm” hoặc “Giới thiệu tác giả”

Công cụ pháp lý và khiếu nại DMCA

Tình hình thực thi:

  • Google cam kết “xử lý khiếu nại DMCA trong vòng 6 giờ”, nhưng thời gian phản hồi trung bình năm 2023 đã kéo dài lên đến 9.3 ngày (theo dõi từ Copysentry)
  • Các trang nông trại nội dung tận dụng “kẽ hở trong luật”: Chỉ thay thế 10% văn bản là có thể tránh bị khiếu nại bản quyền

Châm biếm đen:

Một trang thu thập dữ liệu đã viết lại bài báo của The New York Times và gửi khiếu nại DMCA, cáo buộc bài viết gốc là sao chép, dẫn đến việc trang của The New York Times bị giảm xếp hạng tạm thời (dữ liệu từ SimilarWeb)

Phong tỏa theo khu vực

Chiến lược khu vực:

  • Tại Châu Âu và Mỹ, buộc phải xác minh vị trí máy chủ của trang web, cấm truy cập từ VPN
  • Hợp tác với các nhà cung cấp dịch vụ CDN như Cloudflare để chặn lưu lượng đáng ngờ

Đột phá trong thực tế:

  • Các đội nhóm SEO đen thuê tài nguyên máy tính từ chính phủ ở Campuchia và Zimbabwe (.gov.kh miễn kiểm tra)
  • Sử dụng kết nối vệ tinh (như Starlink) để thay đổi IP động, khiến danh sách IP bị chặn không thể theo kịp tốc độ tạo IP mới

Cảm ơn bạn đã đọc hết bài viết này, hãy nhớ một chân lý rằng nếu bạn có thể cung cấp giá trị thực sự cho người dùng, công cụ tìm kiếm sẽ không bỏ bạn đi, và “công cụ tìm kiếm” ở đây không chỉ là Google.

Lần này, bạn có thấy rõ chưa?