Website bị Google đánh dấu “có nội dung spam”|Nhưng không tìm thấy trang cụ thể

本文作者:Don jiang

Cơ chế Google xác định nội dung spam rất phức tạp. Đôi khi nội dung có vấn đề nằm ẩn rất sâu (như trong trang hồ sơ người dùng, trang test cũ, v.v.), hoặc bị chèn mã độc do lỗ hổng từ plugin bên thứ ba. Ngay cả khi quản trị viên đã kiểm tra nhiều lần thì cũng chưa chắc đã phát hiện được.

Bài viết này sẽ hướng dẫn một phương pháp tiết kiệm chi phí và dễ triển khai

Dựa vào các manh mối trong Google Search Console để quét toàn bộ site, phát hiện những “điểm mù” dễ bị bỏ sót, tìm ra nội dung cũ tiềm ẩn rủi ro hoặc backlink spam gây hại.

Google cảnh báo nội dung spam

Bước 1: Tìm manh mối trong Google Search Console

Khi website bị cảnh báo là “có nội dung spam”, Google Search Console chính là nơi đầu tiên bạn nên vào kiểm tra.

Tuy nhiên, nhiều người chỉ xem phần “Xử phạt thủ công (Manual Action)”, mà bỏ qua những dấu hiệu bất thường tiềm ẩn như: trang có traffic đột biến, từ khóa tụt hạng do thuật toán, hoặc đường dẫn lạ mà hacker có thể đã chèn vào.

Xem báo cáo “Bảo mật và thao tác thủ công”

  • Trong menu bên trái, vào “Bảo mật và thao tác thủ công” > “Thao tác thủ công”, xem website đang bị dính hình phạt gì, ví dụ như “nội dung spam”, “cloaking” v.v.
  • Nếu có thông báo, xử lý từng trang bị nêu trong báo cáo theo hướng dẫn của Google. Nếu không có cảnh báo nào, rất có thể site đang bị thuật toán đánh giá là kém chất lượng – cần kiểm tra thêm.

Sử dụng báo cáo “Hiệu suất” để soi các hành vi bất thường

  • Vào báo cáo “Hiệu suất”, chọn thời gian “28 ngày qua”, chuyển sang tab “Kết quả tìm kiếm”
  • Sắp xếp theo CTR (tỷ lệ click) từ thấp đến cao, tìm các trang có CTR < 1% hoặc hiển thị nhiều nhưng không có click nào – có thể là trang bị Google đánh giá chất lượng thấp hoặc spam

Tải dữ liệu từ báo cáo “Trang được lập chỉ mục”

Vào tab “Lập chỉ mục” > xem báo cáo “Trang đã được lập chỉ mục”, tập trung vào:

  • Các trang bị loại trừ như “nội dung trùng lặp”, “đánh dấu noindex” v.v.
  • Các trang 404 bất ngờ (có thể là URL bị hacker tạo tự động)

Xem liên kết ngoài trong tab “Liên kết”

Vào “Liên kết” > “Liên kết ngoài”, xem thử có bị tăng đột biến từ nguồn kém uy tín, hoặc anchor text bất thường, lặp đi lặp lại – có thể đây là nguyên nhân khiến Google phạt vì “liên kết spam”.

Trang web có bị thay đổi gì đáng ngờ gần đây không?

Nếu không tìm thấy dấu hiệu rõ ràng trong GSC, có thể sự cố bắt nguồn từ những thay đổi gần đây trên website: cài thêm plugin lạ, hoặc làm SEO quá đà khiến Google nghi ngờ.

Trang có bị SEO quá đà không?

  • Nhồi từ khóa: tiêu đề, nội dung, ảnh có nhắc đi nhắc lại cùng 1 từ khóa quá nhiều? Dùng SEOquake để kiểm tra mật độ từ khóa – nếu >5% nên giảm bớt.
  • Nội dung AI chất lượng thấp: dùng AI viết bài hàng loạt mà không kiểm tra lại? Hãy dùng Copyscape để check trùng lặp.

Lỗ hổng từ plugin hoặc giao diện

  • Plugin vừa cài: nhất là mấy plugin tự động thu thập dữ liệu hoặc liên quan tài khoản người dùng – dễ bị lợi dụng spam.
  • Mã lạ bị chèn: kiểm tra các file functions.php hoặc header.php xem có mã redirect hoặc link ẩn không
  • Giải pháp đơn giản: tạm tắt các plugin hoặc tính năng vừa thêm gần đây, xem Google còn báo lỗi không

Kiểm tra liên kết ngoài & anchor text đáng ngờ

  • Dùng Ahrefs hoặc Semrush xem có nhiều backlink bất thường không, như từ site thuốc, cờ bạc v.v.
  • Xem anchor text: có chứa những cụm như “tải miễn phí”, “giá rẻ nhất” nghe có vẻ spam không?

Dùng log server để tìm hành vi truy cập lạ

Lấy file log 30 ngày gần nhất (ví dụ /var/log/apache2/access.log), tìm:

  1. Có spam truy cập wp-admin nhiều lần không?
  2. Có request POST đến các path lạ như /upload.php không?
  3. Có rất nhiều lỗi 404 – dấu hiệu bị quét lỗ hổng

Mẹo bổ sung

  • Hoàn tác các thay đổi đáng nghi: thử xóa code hoặc plugin vừa thêm, xem có cải thiện không
  • UGC dễ bị spam: xem lại các comment, trang hồ sơ người dùng – nên bật duyệt nội dung trước khi hiển thị (gợi ý plugin: Antispam Bee)

Dùng công cụ crawl toàn bộ site để không bỏ sót “điểm mù”

Nếu website có hàng trăm, hàng nghìn trang, bạn không thể check thủ công hết. Nhất là nội dung spam hay nằm ở nơi khó phát hiện – như trang hồ sơ user, URL tạo tự động, folder test v.v.

Google có thể crawl được, nhưng bạn thì không để ý.

Dùng crawler để quét toàn bộ link trên site

Cài Screaming Frog (bản miễn phí quét 500 trang): nhập URL site rồi cho crawl hết. Sau đó xuất báo cáo ra Excel rồi lọc link nào nghi ngờ.

  • URL có tham số đáng ngờ: như ?utm_source=spam, /ref=123ab.
  • Thư mục không bình thường: như /temp/, /old/, /backup/.
  • Checkbot (Tiện ích trình duyệt): Tự động kiểm tra link hỏng, nội dung bị hack và tiêu đề trùng lặp.

    Kiểm tra hàng loạt nội dung trùng lặp/đạo văn

    • Siteliner (Miễn phí): Nhập tên miền để tạo báo cáo, đánh dấu những trang có tỷ lệ trùng lặp cao trong website (ví dụ như mô tả sản phẩm giống nhau).
    • Copyscape Premium: Có phí nhưng rất chính xác, kiểm tra xem trang của bạn có bị website khác sao chép hay không (hoặc bạn có sao chép người khác).

    3 khu vực “ẩn chứa rác” cần chú ý

    Nội dung do người dùng tạo (UGC):

    1. Khu vực bình luận: dùng site:tênmiền.com inurl:comments tìm xem có bình luận rác không.
    2. Trang cá nhân người dùng: ví dụ /author/john/, /user/profile/, truy cập kiểm tra có nội dung gian lận không.

    RSS/đường dẫn API:

    Với website WordPress, kiểm tra xem /feed/, /wp-json/ có bị chèn spam không.

    Chức năng phân trang và lọc:

    Ví dụ /category/news/page/99/ có thể là trang rỗng hoặc nội dung trùng lặp.

    Phân tích log máy chủ để phát hiện bất thường

    Dùng lệnh grep hoặc Excel lọc log 30 ngày gần nhất:

    • Các trang lạ được truy cập nhiều lần (ví dụ /random-page.html).
    • Các bot tìm kiếm có tần suất truy cập bất thường (hacker thường giả danh Googlebot).

    Chú ý quan trọng

    • Cảnh giác với các trang có tham số động: như /product?id=xxx, kiểm tra có nhiều tham số vô hiệu tạo nội dung trùng lặp không.
    • Đặc điểm trang bị hack: tiêu đề chứa từ khóa cờ bạc, khiêu dâm; trang có chữ ẩn hoặc mã chuyển hướng.
    • Nếu phát hiện nhiều trang có vấn đề, ưu tiên gửi yêu cầu “Xóa snapshot” trong Google Search Console để tạm thời hạn chế thiệt hại.

    Xử lý nội dung cũ, trang thử nghiệm và nguồn rác ẩn

    Bạn tưởng rằng các bài viết cũ, trang thử nghiệm đã xóa sạch, nhưng có thể vẫn tồn tại trong mắt Google như “nội dung rác”

    Chúng lâu không được bảo trì, bị hacker cấy link ẩn, hoặc nội dung lỗi thời gây hiểu nhầm cho người dùng, làm điểm đánh giá trang web giảm.

    Nội dung hết hạn: xóa hoặc đánh dấu trang “không có giá trị”

    • Trang sản phẩm/các bài blog cũ: dùng công cụ như Screaming Frog để lọc các trang không cập nhật hơn 1 năm, xóa hoặc thêm thẻ noindex.
    • Trang khuyến mãi hết hạn: kiểm tra các thư mục /promo/, /sale/, nếu sản phẩm không còn bán, chuyển hướng 301 đến trang sản phẩm tương tự.
    • Trang tổng hợp nội dung trùng lặp: như trang lưu trữ theo năm /2020/, nếu không có lượt truy cập, đặt noindex.

    Trang thử nghiệm còn sót lại từ phát triển

    • Quét các thư mục tạm thời: tìm /test/, /demo/, /temp/ và kiểm tra xem có bị index không (dùng site:tênmiền.com inurl:test).
    • Dọn dẹp các trang chức năng bỏ: ví dụ trang thử nghiệm đặt lịch /booking-test/, xóa hoàn toàn và gửi báo cáo link hỏng.

    Trang có tham số rác do bị hack tạo ra

    Kiểm tra URL có tham số bất thường:

    • Nhập site:tênmiền.com intext:cờ bạc|mang thai hộ|hóa đơn để tìm các trang bị hack.
    • Phân tích log server các URL có tham số lạ như ?ref=spam, xóa và chặn truy cập các tham số này.

    Sửa lỗi bảo mật: đổi mật khẩu database, cập nhật plugin/theme lên phiên bản mới nhất.

    Nội dung người dùng chất lượng thấp (UGC)

    • Dọn dẹp hàng loạt trang cá nhân người dùng: kiểm tra các trang /author/username/ trong WordPress, xóa tài khoản không đăng bài, không có thông tin.
    • Chặn đường dẫn bình luận rác: thêm Disallow: /*?replytocom= vào robots.txt để tránh index trang phân trang bình luận.

    Chú ý quan trọng

    • Ưu tiên xử lý trang đã được Google index: kiểm tra bằng site:tênmiền.com + tên thư mục ví dụ site:tênmiền.com /test/.
    • Không chỉ xóa mà phải thông báo cập nhật: dùng công cụ Xóa URL trong Google Search Console để đẩy nhanh cập nhật.

    Cần lưu ý, Google thường mất 1-3 tuần để xét duyệt thủ công, trong thời gian này hãy giữ website cập nhật bình thường, tránh bị thuật toán đánh giá thấp lại.