Trang web đã bị xóa nhưng Google vẫn hiển thị tiêu đề cũ|Cách buộc cập nhật ảnh chụp nhanh

本文作者:Don jiang

Trang web đã bị xóa nhưng Google vẫn hiển thị tiêu đề cũ

Sử dụng công cụ chính thức của Google để gửi yêu cầu xóa nội dung hết hạn

Thay vì bị động chờ hệ thống tự cập nhật, Google Search Console cung cấp tính năng “Xóa tạm thời” cực kỳ hiệu quả, cho phép bạn can thiệp trực tiếp vào kết quả tìm kiếm.

Tính năng này giống như gửi một “tín hiệu cập nhật cưỡng bức” đến máy chủ Google – đặc biệt phù hợp để xử lý các trang sản phẩm hết hàng, trang sự kiện đã kết thúc, v.v. Có thể có hiệu lực nhanh nhất trong vòng 12 giờ.

Cách truy cập chính xác

  • Đăng nhập vào Google Search Console, chọn “Xóa bỏ” ở thanh bên trái (không phải “Kiểm tra URL”)
  • Nhấn “Yêu cầu mới” → chọn thẻ “Xóa tạm thời” (không chọn xóa vĩnh viễn)

Điều kiện cần để gửi yêu cầu

  1. Đảm bảo trang đích trả về mã trạng thái HTTP 404 hoặc 410 (dùng công cụ như httpstatus.io để kiểm tra)
  2. Nếu trang đang chuyển hướng, hãy tắt chuyển hướng trước
  3. Ví dụ: trang sản phẩm cũ đã bị xóa https://example.com/product-123

Mẹo thực chiến để đẩy nhanh hiệu quả

  1. Chọn thêm tùy chọn “Xóa liên kết đã lưu trong bộ nhớ đệm” (mặc định bị ẩn, cần mở rộng để thấy)
  2. Xử lý nhiều trang cùng lúc bằng tính năng “Xóa theo tham số” (ví dụ các liên kết có ?id=123)
  3. Thời hạn hiệu lực của xóa tạm thời: khoảng 6 tháng (hết hạn cần gửi lại)

Lý do thường gặp khiến yêu cầu thất bại

  • ❌ Trang vẫn trả về mã trạng thái 200 (chưa thực sự bị xóa)
  • ❌ Chưa xác minh quyền sở hữu website (cần xác minh qua DNS hoặc tệp HTML)
  • ❌ Gửi liên kết có ký tự “#” (anchor), cần gửi URL gốc không có phần #

Theo dõi kết quả

Xem trạng thái trong bảng điều khiển “Xóa bỏ”:

  • ✅ Màu xanh “Đã phê duyệt”: trang đã bị ẩn khỏi kết quả tìm kiếm
  • ⏳ “Đang xử lý”: Google đã nhận được yêu cầu (thường xử lý trong vòng 24 giờ)
  • ❗ “Lỗi”: sửa lỗi theo hướng dẫn rồi gửi lại yêu cầu

Mẹo làm mới bộ nhớ đệm bằng tay

Làm mới bộ nhớ đệm (cache) thủ công là cách can thiệp trực tiếp – thích hợp với các trang tin tức có ngày phát hành sai, giá cả không cập nhật, v.v.

Có thể “đánh lừa” bot Google để thu thập lại dữ liệu. Thực tế cho thấy khoảng 50% trường hợp được cập nhật trong vòng 3 ngày.

Đường dẫn ẩn của nút làm mới bộ nhớ đệm

  • Trên thanh tìm kiếm Google, gõ cache:URL của bạn (ví dụ cache:example.com/news)
  • Lưu ý: Nếu trang có thể làm mới, góc trên bên phải sẽ có nút “Cập nhật bộ nhớ đệm này” (không phải lúc nào cũng hiển thị)
  • Nhấn nút đó để đưa URL vào hàng đợi thu thập dữ liệu ưu tiên của Google

Dùng chế độ ẩn danh để kích hoạt thu thập dữ liệu

  • Mở trang trong Chrome ở chế độ ẩn danh và tải lại trang 5 lần liên tiếp
  • Cách nâng cao: thêm tham số ngẫu nhiên vào cuối URL, ví dụ ?v=20230828
  • Nguyên lý: kích hoạt thuật toán cập nhật dựa trên hành vi người dùng – tăng khả năng thu thập lại ~30%

Thủ thuật vô hiệu hóa cache của trình duyệt

  • Nhấn F12 mở Developer Tools → chuyển đến tab Network
  • Tích chọn “Disable cache”, rồi làm mới trang
  • Lặp lại 3 lần, bot của Google có thể nhầm tưởng trang không ổn định và tự động thu thập lại

Lưu ý đặc biệt

  • ❗ Với trang có nội dung sinh ra bằng JavaScript, cần lặp lại ít nhất 3 lần
  • ❗ Trang di động nên thực hiện trong chế độ ẩn danh trên điện thoại
  • ✅ Kết hợp công cụ “Kiểm tra URL đã được lập chỉ mục hay chưa” trong Search Console để theo dõi

Cần thiết lập mã 404 đúng cách cho trang đã xóa

Nhiều quản trị viên web cho rằng “xóa trang là đủ” – nhưng nếu không thiết lập đúng mã lỗi 404, có thể gây hại lớn cho SEO.

Google có thể vẫn tiếp tục thu thập các “trang ma” và giữ lại bộ nhớ đệm cũ. Nếu trang trả về mã 200 nhưng không có nội dung (soft 404), độ tin cậy website có thể giảm.

Xác minh mã trạng thái HTTP chính xác

Dùng tiện ích trình duyệt (như HTTP Status) hoặc dòng lệnh curl -I URL để kiểm tra

Bắt buộc phải trả về mã 404 hoặc 410 – không được là 200 hay 302 (rất thường gặp khi bị chuyển hướng về trang chủ)

  • Ví dụ: Với WordPress, cần tắt plugin chuyển hướng trang bị xóa sang nội dung liên quan

Chặn đường dẫn cũ bằng robots.txt

Thêm vào tệp robots.txt dòng sau: Disallow: /đường-dẫn-của-trang-đã-xóa/ (hỗ trợ ký tự đại diện *)
Cấm thu thập đồng thời gửi báo cáo kiểm tra robots.txt trong Search Console

  • Cảnh báo: robots.txt không thể ngăn hiển thị bản lưu (cache) của các trang đã được lập chỉ mục

Chiến lược lựa chọn chuyển hướng 301

Chỉ sử dụng chuyển hướng 301 khi có nội dung thay thế (ví dụ: sản phẩm cũ → trang danh mục sản phẩm mới)

Trang đích chuyển hướng phải có chủ đề liên quan chặt chẽ đến nội dung gốc (tránh phân tán giá trị SEO)

  • Không sử dụng chuyển hướng chuỗi (ví dụ: trang cũ A → trang cũ B → trang mới C)

Các tình huống rủi ro phổ biến

  • ❌ Hiển thị thông báo 404 bằng JavaScript (bot có thể vẫn coi là trang hợp lệ)
  • ❌ Trang 404 tùy chỉnh có thanh điều hướng và ô tìm kiếm (có thể bị đánh giá là soft 404)
  • ✅ Cách đúng: Trang 404 chỉ có thông báo văn bản đơn giản, loại bỏ toàn bộ liên kết nội bộ

Các công cụ hỗ trợ

  • Google Search Console: Báo cáo mức độ bao phủ → Lọc trang “đã gửi nhưng chưa được lập chỉ mục”
  • Dùng công cụ Screaming Frog để quét → Lọc các trang lỗi “Client Error 4xx”
  • Các công cụ SEO bên thứ ba (như Ahrefs) theo dõi các liên kết ngược trỏ tới trang lỗi

(Ví dụ cấu hình: Máy chủ Apache thêm ErrorDocument 404 /error-404.html vào .htaccess, Nginx thêm error_page 404 /404.html; vào file cấu hình)

Mẹo cập nhật hàng loạt: Sitemap XML

Đối với các website có nhiều trang lỗi thời (ví dụ: sản phẩm đã ngừng kinh doanh, bài viết cũ bị xóa), gửi từng URL là không khả thi.

Sitemap XML là “giấy thông hành cập nhật hàng loạt” được Google chính thức công nhận, giúp rút ngắn chu kỳ cập nhật từ vài tuần xuống còn 72 giờ.

Tạo sitemap động chính xác

Dùng công cụ (Screaming Frog/plugin WP) quét toàn site, tự động lọc bỏ trang 404

Giữ lại thẻ <lastmod> cho các trang hợp lệ (định dạng thời gian: 2023-08-28T12:00:00+00:00)

  • Lỗi thường gặp: Bao gồm URL của trang đã bị xóa sẽ khiến Google tiếp tục cố gắng thu thập lại

Chiến lược đẩy dữ liệu trong Search Console

Sau khi tải lên sitemap.xml mới, nhấn “Kiểm tra” để xác minh lỗi liên kết

Tại nút “Gửi”, chọn “Thu thập lại” thay vì chỉ gửi thông thường

Với website có tần suất cập nhật cao, nên chia sitemap thành nhiều file (như product-sitemap.xml, news-sitemap.xml)

Liên kết giữa sitemap và robots.txt

Thêm vào dòng đầu robots.txt: sitemap: https://tenmiencuaban.com/sitemap.xml

Các trang bị cấm thu thập cần được xóa khỏi sitemap để tránh xung đột chỉ thị

  • Ví dụ: Trang danh mục sản phẩm cũ nên xóa khỏi sitemap và thêm thẻ <noindex>

Tăng tốc hiệu lực

  • Gán thẻ <priority>0.8</priority> cho các trang có độ ưu tiên cao trong sitemap
  • Tự động tạo sitemap mỗi ngày (sử dụng lịch tác vụ trong bảng điều khiển như BaoTa)
  • Kết hợp với API lập chỉ mục (Indexing API) để cập nhật theo thời gian thực (cần khả năng lập trình)

Chỉ số theo dõi dữ liệu

  • Trong Search Console, xem tỷ lệ “Đã phát hiện” và “Đã lập chỉ mục” trong mục gửi sitemap
  • Dùng Google Analytics để phân tích nguồn truy cập đến trang 404
  • Hàng tuần sử dụng DeepCrawl để so sánh sitemap với trang thực tế

(Ví dụ cấu hình: Website WordPress sử dụng plugin RankMath để tạo sitemap động, đồng bộ với cơ sở dữ liệu mỗi giờ)

Google có độ trễ cập nhật chỉ mục từ 1–3 ngày. Sau khi thao tác, không nên gửi lại nhiều lần. Nếu sau 72 giờ chưa hiệu lực, hãy kiểm tra xem còn mã chuyển hướng hay lỗi robots.txt hay không.

滚动至顶部