Nhiều quản trị viên website phát hiện trang web của họ đột nhiên “biến mất” khỏi kết quả tìm kiếm của Google, nguyên nhân có thể là do tường lửa Cloudflare chặn nhầm trình thu thập dữ liệu của Google (Googlebot), khiến công cụ tìm kiếm không thể thu thập trang.
Do quy tắc bảo vệ mặc định của Cloudflare khá nghiêm ngặt, đặc biệt với các IP có tần suất truy cập cao như các bot, chỉ một sơ suất nhỏ cũng có thể kích hoạt tường lửa chặn, nhẹ thì làm chậm việc được lập chỉ mục, nặng thì khiến thứ hạng từ khóa giảm mạnh.
Bài viết này sẽ hướng dẫn 4 bước thực hành, từ việc kiểm tra nguyên nhân bị chặn, điều chỉnh cấu hình tường lửa cơ bản, đến thiết lập chính xác danh sách trắng cho bot thu thập dữ liệu, giúp bạn giải quyết vấn đề Google không thể lập chỉ mục do các quy tắc của Cloudflare.
Table of Contens
ToggleĐầu tiên, xác nhận xem có thật sự bị chặn không
Nhiều quản trị viên website thấy trang web không được Google lập chỉ mục đã vội chỉnh cấu hình, nhưng thực tế có thể Cloudflare không chặn bot, hoặc vấn đề đến từ SEO khác (như chất lượng nội dung, robots.txt giới hạn).
Hãy kiểm tra bằng các cách sau để tránh thao tác sai làm phức tạp thêm lỗi.
Báo cáo lỗi thu thập dữ liệu trên Google Search Console
- Đường dẫn: Vào GSC → bên trái chọn “Chỉ mục” → “Phủ sóng” → xem phần “Loại trừ” có ghi lỗi “thu thập thất bại”.
- Chỉ số quan trọng: Nếu lỗi hiện là “bị từ chối” (403/5xx) hoặc “đã chuyển hướng” thì có thể do tường lửa chặn.
Đối chiếu nhật ký tường lửa Cloudflare
Thao tác: Đăng nhập Cloudflare → vào “Bảo mật” → “Sự kiện” → lọc thời gian → tìm các yêu cầu có “User-Agent” chứa “Googlebot”.
Chú ý trạng thái:
- Block: Chặn rõ ràng (cần cho phép đi qua)
- Challenge: Yêu cầu xác thực CAPTCHA (có thể làm bot hoạt động chậm)
- JS Challenge: Kiểm tra JavaScript (có thể khiến bot mobile không thu thập được)
Sử dụng công cụ kiểm tra URL chính thức của Google
- Địa chỉ: https://search.google.com/search-console/inspect
- Nhập URL trang bị nghi ngờ chặn, chọn “Kiểm tra URL thực” → quan sát kết quả:
- Nếu báo “Không thể thu thập” (Crawl blocked), xem mã HTTP (như 403) để xác nhận.
Phân biệt giữa “Yêu cầu CAPTCHA” và “Chặn hoàn toàn”
Yêu cầu CAPTCHA: Bot nhận trang CAPTCHA (trả về 200 nhưng nội dung là mã xác thực), Google không đọc được, dẫn đến không lập chỉ mục.
Chặn hoàn toàn: Trả mã lỗi 403/5xx, bot không lấy được bất kỳ nội dung nào.
Kiểm tra cấu hình cơ bản của tường lửa Cloudflare
Cấu hình bảo mật mặc định của Cloudflare mặc dù bảo vệ website, nhưng cũng có thể “bắn nhầm” Googlebot.
Đặc biệt việc bot truy cập với tần suất cao dễ bị coi là tấn công, dẫn đến bị giới hạn hoặc chặn.
Dưới đây 4 cấu hình cơ bản cần ưu tiên kiểm tra, chỉ cần điều chỉnh đơn giản có thể giảm đáng kể khả năng bị chặn nhầm.
Điều chỉnh Security Level (mức độ bảo mật)
- Vấn đề: Mức “cao” hoặc “rất cao” có thể chặn tới hơn 30% yêu cầu bot hợp lệ.
- Thao tác: Vào Cloudflare → “Bảo mật” → “Cài đặt” → hạ mức độ bảo mật xuống “Trung bình” hoặc “Thấp”.
- Lưu ý: Sau khi giảm cần theo dõi nhật ký tấn công, phối hợp tạo “luật tùy chỉnh” để chặn chính xác các mối đe dọa thật.
Tắt chặn vùng địa lý không cần thiết
- Rủi ro: Nếu bật “chặn vùng” và chặn IP Bắc Mỹ, châu Âu thì có thể chặn nhầm Googlebot (server Google chủ yếu ở Mỹ).
- Thao tác: Vào “Bảo mật” → “WAF” → “Vùng” → kiểm tra bật tắt chặn vùng, nên tạm tắt hoặc loại trừ ASN15169 (mạng Google).
Tắt chế độ Under Attack (biểu tượng khiên đỏ)
- Tác động: Chế độ này bắt tất cả truy cập phải xác thực (chờ 5 giây), Googlebot không qua được nên bị chặn hoàn toàn.
- Thao tác: Trang chủ Cloudflare → tắt “Under Attack Mode”.
Tắt JS Challenge cho công cụ tìm kiếm
Lỗi nghiêm trọng: Bật “Browser Integrity Check” khiến bot không chạy được script JS nên thu thập thất bại (đặc biệt bot mobile Google).
Thao tác: Vào “Bảo mật” → “Cài đặt” → tắt “Browser Integrity Check” cho công cụ tìm kiếm.
Bổ sung: Có thể tạo luật riêng cho User-Agent chứa Googlebot
để tắt JS Challenge.
Thiết lập luật whitelist tường lửa bắt buộc
Giảm mức bảo mật có thể làm tăng rủi ro, cách an toàn hơn là tạo whitelist chính xác cho Googlebot.
Cloudflare hỗ trợ whitelist dựa theo User-Agent, nguồn IP, hoặc ASN (mã hệ thống tự trị).
Whitelist theo User-Agent (ưu tiên cao nhất)
Mục đích: Cho phép mọi yêu cầu chứa Googlebot
được vượt qua tường lửa trực tiếp.
Thao tác:
Cloudflare → “Bảo mật” → “WAF” → “Luật” → tạo luật mới
- Điều kiện:
User-Agent
→ “chứa” → nhập regex.*Googlebot.*
- Hành động: Chọn “Bypass” hoặc “Skip”
Lưu ý: Bao gồm cả Googlebot-Image
, Googlebot Smartphone
và các biến thể khác.
Whitelist theo ASN (chống giả mạo User-Agent)
Lý do: Bot độc hại có thể giả User-Agent thành Googlebot, cần xác minh nguồn IP bằng ASN.
Thao tác: Thêm điều kiện:
- Điều kiện:
ASN
→ “bằng” → nhập15169
(ASN của Google toàn cầu)
Nhiều quản trị viên website phát hiện trang web của mình đột nhiên “biến mất” khỏi kết quả tìm kiếm Google, mà nguyên nhân rất có thể là do Cloudflare Firewall chặn nhầm Googlebot – khiến công cụ tìm kiếm không thể thu thập dữ liệu trang web.
Vì các quy tắc mặc định của Cloudflare khá nghiêm ngặt, đặc biệt với các IP bot truy cập thường xuyên, nên rất dễ bị tường lửa chặn nhầm. Nhẹ thì bị chậm lập chỉ mục, nặng thì từ khóa tụt hạng thê thảm.
Bài viết này sẽ hướng dẫn bạn chi tiết qua 4 bước thực tế: từ kiểm tra nguyên nhân chặn, điều chỉnh cấu hình cơ bản, cho đến thiết lập whitelist chuẩn cho bot Google – từng bước khắc phục lỗi do Cloudflare gây ra.
Trước tiên, hãy xác nhận có thật sự bị chặn hay không
Nhiều quản trị viên vừa thấy site không được Google index là vội điều chỉnh cấu hình. Nhưng thực ra có thể Cloudflare không chặn gì cả – mà do vấn đề SEO khác như chất lượng nội dung kém, hoặc robots.txt đang chặn bot.
Hãy kiểm tra theo các cách sau để tránh “chữa lợn lành thành lợn què”:
Báo cáo lỗi thu thập trong Google Search Console
- Đường dẫn: Vào GSC → Cột bên trái “Chỉ mục” → “Phạm vi bao phủ” → xem các trang “Bị loại trừ” và tìm mục “Không thu thập được”.
- Dấu hiệu chính: Nếu lỗi ghi “Bị từ chối” (403/5xx) hoặc “Chuyển hướng” thì có thể là do tường lửa chặn.
So sánh với nhật ký Firewall trong Cloudflare
Thao tác: Đăng nhập Cloudflare → Vào “Bảo mật” → “Sự kiện” → Chọn khung thời gian → Lọc theo “User-Agent” chứa “Googlebot”.
Chú ý các trạng thái:
- Block: Bị chặn hoàn toàn (cần mở)
- Challenge: Gặp CAPTCHA (có thể làm chậm bot)
- JS Challenge: Yêu cầu trình duyệt chạy JavaScript (có thể khiến Googlebot bản mobile không vào được)
Sử dụng công cụ kiểm tra URL của Google
- Đường dẫn: https://search.google.com/search-console/inspect
- Nhập URL nghi bị chặn → Bấm “Kiểm tra URL trực tiếp” → Quan sát kết quả
- Nếu thấy “Crawl blocked” và phần chi tiết trả về mã HTTP như 403 thì có thể khẳng định bị chặn
Phân biệt CAPTCHA và chặn hoàn toàn
CAPTCHA: bot nhận được trang CAPTCHA (mã 200 nhưng nội dung không đúng), khiến Google không hiểu, không lập chỉ mục được.
Chặn hoàn toàn: Trả về lỗi 403 hoặc 5xx – bot không thể lấy được nội dung gì.
Kiểm tra các thiết lập tường lửa cơ bản trong Cloudflare
Mặc dù Cloudflare giúp bảo vệ web khỏi tấn công, nhưng đôi khi lại “quá tay”, khiến Googlebot cũng bị chặn.
Đặc biệt nếu bot thu thập dữ liệu liên tục, rất dễ bị hiểu lầm là tấn công DDoS.
Hãy kiểm tra 4 thiết lập sau – chỉ cần chỉnh nhẹ là có thể tránh chặn nhầm:
Điều chỉnh cấp độ bảo mật (Security Level)
- Vấn đề: Nếu để mức “Cao” hoặc “Rất cao” thì có thể chặn hơn 30% bot hợp lệ.
- Cách làm: Vào Cloudflare → “Bảo mật” → “Cài đặt” → Giảm “Cấp độ bảo mật” xuống “Trung bình” hoặc “Thấp”.
- Lưu ý: Sau khi giảm, nên xem nhật ký để theo dõi bot xấu thực sự, kết hợp tạo rule để chặn chính xác.
Tắt tính năng chặn theo khu vực có thể gây nhầm lẫn
- Rủi ro: Nếu bạn chặn IP từ Mỹ hoặc châu Âu, có thể sẽ vô tình chặn luôn Googlebot (vì server Google phần lớn ở Mỹ).
- Giải pháp: Vào “Bảo mật” → “WAF” → “Khu vực” → Kiểm tra xem có đang chặn vùng nào không → nếu có thì tạm tắt hoặc loại trừ ASN15169 (mạng riêng của Google).
Tắt chế độ Under Attack (biểu tượng hình khiên đỏ)
- Ảnh hưởng: Chế độ này bắt tất cả truy cập phải chờ 5 giây, nhưng Googlebot không thể xử lý được → bị chặn hoàn toàn.
- Cách làm: Vào trang chính Cloudflare → Tắt “Under Attack Mode”.
Vô hiệu hóa JS Challenge cho bot
Nguy cơ: Nếu bật “Kiểm tra toàn diện trình duyệt” thì các bot như Googlebot mobile sẽ không chạy được JavaScript → không thể truy cập.
Cách làm: Vào “Bảo mật” → “Cài đặt” → Tắt “Kiểm tra trình duyệt” hoặc thiết lập để “Không áp dụng với bot công cụ tìm kiếm”.
Bổ sung: Có thể tạo rule riêng cho User-Agent
chứa Googlebot
để tắt thử thách JS.
Thiết lập quy tắc Firewall cho Googlebot
Việc hạ thấp mức bảo mật có thể khiến site dễ bị tấn công – cách an toàn hơn là tạo rule cho phép riêng với Googlebot.
Cloudflare hỗ trợ whitelist theo User-Agent, IP, ASN (hệ thống tự trị).
Whitelist theo User-Agent (ưu tiên hàng đầu)
Tác dụng: Cho phép tất cả request có Googlebot
qua firewall mà không kiểm tra.
Thao tác:
Vào Cloudflare → “Bảo mật” → “WAF” → “Quy tắc” → Tạo rule mới
- Trường:
User-Agent
→chứa
→ Nhập regex:.*Googlebot.*
- Hành động: Chọn “Bypass” hoặc “Skip”
Lưu ý: Nhớ bao gồm cả Googlebot-Image
(bot hình ảnh), Googlebot Smartphone
(bot mobile), v.v.
Whitelist theo ASN (đề phòng giả mạo User-Agent)
Tại sao cần: Nhiều bot xấu giả mạo Googlebot bằng cách dùng cùng User-Agent → cần xác thực thêm bằng IP/ASN
Thao tác: Thêm điều kiện trong rule firewall:
- Trường:
ASN
→bằng
→ Nhập15169
(ASN của Google)