Cloudflare 방화벽이 Google 크롤러를 차단|인덱싱 실패 문제 해결 방법

本文作者:Don jiang

많은 웹사이트 운영자들이 구글 검색 결과에서 사이트가 갑자기 “사라졌다”고 느낄 수 있습니다. 그 이면에는 Cloudflare 방화벽이 Googlebot(구글 크롤러)을 잘못 차단한 경우가 많습니다. 이로 인해 검색 엔진이 페이지를 정상적으로 크롤링하지 못하게 됩니다.

Cloudflare의 기본 보안 규칙은 다소 엄격하며, 특히 고빈도 접근을 시도하는 봇 IP에 대해 민감하게 반응합니다. 조금만 설정이 잘못되어도 방화벽 차단이 발생하며, 가벼운 경우엔 색인 지연, 심한 경우엔 키워드 순위가 급락할 수 있습니다.

이 글에서는 4단계 실전 방법을 통해 Cloudflare 방화벽 규칙으로 인해 발생하는 구글 색인 문제를 해결하는 방법을 손쉽게 안내합니다. 차단 원인 확인부터 방화벽 기본 설정 조정, 크롤러 화이트리스트 설정까지 단계별로 설명합니다.

Cloudflare 방화벽이 Googlebot 차단

먼저, 실제로 차단되었는지 확인하세요

많은 운영자들이 사이트가 구글에 색인되지 않으면 바로 설정을 바꾸려 하지만, 실제로는 Cloudflare가 크롤러를 차단하지 않았거나, 콘텐츠 품질 또는 robots.txt와 같은 다른 SEO 문제가 원인일 수 있습니다.

아래 방법들을 통해 실제 차단 여부를 확인하여 불필요한 조치로 인해 더 큰 문제를 야기하지 않도록 하세요.

Google Search Console 크롤링 오류 리포트

  • 경로: GSC 대시보드 → 왼쪽 “색인” → “페이지” → “제외됨” 섹션의 “크롤링 실패” 기록 확인
  • 중요 지표: 오류 유형이 “접근 거부됨”(403/5xx) 또는 “리디렉션됨”으로 표시된다면 방화벽 차단 가능성 있음

Cloudflare 방화벽 로그 비교

Cloudflare에 로그인 → “보안” → “이벤트” → 기간 필터 설정 → “User-Agent”에 “Googlebot” 포함된 요청 검색

상태를 중점적으로 확인:

  1. Block: 명확한 차단 (허용 필요)
  2. Challenge: CAPTCHA 도전 발생 (크롤링 속도 저하 가능)
  3. JS Challenge: 브라우저 확인 (모바일 Googlebot 실패 가능)

구글 공식 테스트 도구 활용

  1. 도구 주소: https://search.google.com/search-console/inspect
  2. 차단 의심 URL 입력 → “실제 URL 테스트” 클릭 → 결과 확인
  3. “크롤링 차단됨”(Crawl blocked)으로 표시되면, 아래의 HTTP 응답 코드(예: 403)를 참고하여 판단

“CAPTCHA 도전”과 “완전 차단” 구분

CAPTCHA 도전: Googlebot이 CAPTCHA 페이지(200 응답 코드지만 내용은 인증 요구)를 받아 수집 실패

완전 차단: 403/5xx 에러 코드 반환 → Googlebot이 콘텐츠에 전혀 접근 불가

Cloudflare 방화벽 기본 설정 점검

Cloudflare의 기본 보안 설정은 사이트를 보호하지만 Googlebot을 “오탐지”하여 차단할 가능성도 있습니다.

특히 고빈도 크롤링이 공격으로 인식되면 제한되거나 완전히 차단됩니다.

아래 4가지 기본 설정을 우선 점검하면 오탐 확률을 크게 줄일 수 있습니다.

보안 수준(Security Level) 조정

  1. 문제: “높음” 또는 “매우 높음”으로 설정하면, 정당한 봇 요청의 30% 이상이 차단될 수 있음
  2. 조치: Cloudflare 대시보드 → “보안” → “설정” → 보안 수준을 “중간” 또는 “낮음”으로 조정
  3. 주의: 보안 수준을 낮춘 후에는 공격 로그를 관찰하고, “맞춤 규칙”을 통해 실제 위협만 선별 차단

지역 차단 오탐 방지

  • 위험: “지역 차단” 기능에서 북미, 유럽 IP 대역을 차단하면 Googlebot이 차단될 수 있음 (구글 서버 대부분이 미국에 위치)
  • 조치: “보안” → “WAF” → “지역” → 지역 차단 설정 확인, 필요 시 일시 해제 또는 ASN 15169(Google 전용 네트워크) 허용

공격 모드(Under Attack Mode) 비활성화

  • 영향: 모든 방문자가 5초간 JS 검증 페이지를 거치게 되며, Googlebot은 이를 통과하지 못해 완전 차단됨
  • 조치: Cloudflare 콘솔 첫 화면 → “Under Attack Mode” 스위치 → 꺼져 있는지 확인

검색 엔진 대상 JS Challenge 비활성화

치명적인 실수: “브라우저 무결성 검사”가 활성화된 경우, 일부 Googlebot (특히 모바일)은 JS 실행 불가로 인해 차단됨

조치: “보안” → “설정” → “브라우저 무결성 검사” 항목에서 “검색 엔진 제외” 옵션 선택

추가 팁: User-AgentGooglebot이 포함된 요청에 대해 JS Challenge를 별도 비활성화하는 규칙 설정 가능

필수 설정: 방화벽 화이트리스트 규칙

보안 수준을 단순히 낮추는 건 사이트를 위험에 노출시킬 수 있습니다. 더 안전한 방법은 Googlebot을 정밀하게 화이트리스트 처리하는 것입니다.

Cloudflare에서는 User-Agent, IP 출처, ASN(자율 시스템 번호)을 기준으로 조건부 허용이 가능합니다.

User-Agent 화이트리스트 (가장 우선)

역할: Googlebot이 포함된 요청은 방화벽 검사 없이 우선 통과시킴

설정 경로:

Cloudflare 대시보드 → “보안” → “WAF” → “규칙” → 새 규칙 생성

  • 필드: User-Agent포함 → 정규식 입력: .*Googlebot.*
  • 동작: “우회(Bypass)” 또는 “건너뛰기(Skip)” 선택

주의: Googlebot-Image (이미지 봇), Googlebot Smartphone (모바일 봇) 등 다양한 변종도 포함 필요

ASN 화이트리스트 (User-Agent 위조 방지)

필요성: 악성 봇이 Googlebot의 UA를 위조할 수 있으므로, IP 출처로 진짜 구글 봇인지 검증 필요

설정 방법: 방화벽 규칙에 다음 조건 추가

  • 필드: ASN같음15169 입력 (Google 글로벌 서버 ASN)

많은 웹사이트 운영자들은 자신의 사이트가 갑자기 구글 검색 결과에서 “사라지는” 현상을 겪고 있습니다. 그 배경에는 종종 Cloudflare 방화벽이 구글 크롤러(Googlebot)를 잘못 차단하는 문제가 있습니다. 이로 인해 검색 엔진이 페이지를 제대로 크롤링하지 못하게 됩니다.

Cloudflare는 기본적으로 보안 규칙이 꽤 엄격하기 때문에, 특히 빈번하게 접근하는 봇의 IP에 대해 민감하게 반응합니다. 조금만 잘못 설정해도 방화벽이 차단을 트리거하며, 이로 인해 인덱싱이 지연되거나 심각한 경우에는 검색 순위가 급격히 하락할 수 있습니다.

이 글에서는 4단계 실전 방법을 통해 Cloudflare 설정으로 인해 발생하는 구글 인덱싱 문제를 손쉽게 해결할 수 있도록 안내합니다. 차단 원인 확인부터 방화벽 기본 설정 조정, 크롤러 화이트리스트 설정까지 단계별로 설명드립니다.

Cloudflare 방화벽이 구글봇을 차단

먼저 정말 차단된 것인지 확인하세요

많은 웹마스터들이 구글에 사이트가 인덱싱되지 않았다는 사실만 보고 곧바로 설정을 변경하려고 합니다. 하지만 실제로는 Cloudflare가 구글봇을 차단하지 않았을 수도 있으며, 다른 SEO 문제(예: 콘텐츠 품질, robots.txt 설정 등)가 원인일 수 있습니다.

다음 방법을 통해 실제 차단이 발생했는지 먼저 확인해보세요. 불필요한 조작으로 더 큰 문제를 만드는 것을 방지할 수 있습니다.

Google Search Console 크롤링 오류 리포트

  • 경로: GSC 접속 → 왼쪽 메뉴 “색인” → “페이지” → “제외됨” 항목에서 “크롤링 오류” 확인
  • 핵심 지표: 오류 유형이 “거부됨”(403/5xx) 또는 “리디렉션됨”으로 나타난다면, 방화벽 차단 가능성이 있습니다.

Cloudflare 방화벽 로그 비교

방법: Cloudflare 로그인 → “보안” → “이벤트” → 시간 범위 설정 후, “User-Agent”에 “Googlebot”이 포함된 요청 필터링

상태 확인 포인트:

  1. Block: 명확한 차단 (허용 필요)
  2. Challenge: CAPTCHA 도전 발생 (크롤링 속도에 영향)
  3. JS Challenge: 브라우저 검사 발생 (모바일 크롤러 실패 원인 가능)

구글 공식 테스트 도구 활용

  1. 도구 주소: https://search.google.com/search-console/inspect
  2. 문제가 되는 URL을 입력하고 “실제 URL 테스트” 클릭
  3. “크롤링 차단됨”(Crawl blocked) 메시지가 나오면, 상세 응답 코드(예: 403)로 확인

“CAPTCHA”와 “완전 차단” 구분하기

CAPTCHA 도전: 봇이 CAPTCHA 페이지를 받지만(200 응답코드), 콘텐츠가 CAPTCHA라 구글이 인식하지 못함 → 인덱싱 실패

완전 차단: 403 또는 5xx 오류 코드로 응답하여 봇이 페이지 내용을 전혀 가져오지 못함

Cloudflare 방화벽 기본 설정 점검

Cloudflare 기본 보안 설정은 사이트를 보호하지만, 구글봇도 잘못 차단할 수 있습니다.

특히 구글 크롤러의 고빈도 접근은 공격으로 오해받아 차단될 수 있습니다.

다음 4가지 기본 설정을 우선 점검하세요. 간단한 조정만으로도 오탐률을 크게 줄일 수 있습니다.

Security Level(보안 수준) 조정

  1. 문제: “높음” 또는 “매우 높음”으로 설정하면 합법적인 봇 요청의 30% 이상이 차단될 수 있음
  2. 조치: Cloudflare 대시보드 → “보안” → “설정” → 보안 수준을 “중간” 또는 “낮음”으로 변경
  3. 주의: 보안 수준을 낮춘 후에도 공격 로그는 주기적으로 모니터링하며, 사용자 정의 규칙으로 실질 위협을 차단하세요.

지역 차단 기능의 오탐 방지

  • 위험 요소: 북미, 유럽 IP를 차단하면 Googlebot도 차단될 수 있음 (Googlebot은 주로 미국에 위치)
  • 조치: “보안” → “WAF” → “지역” → 지역 차단 여부 확인. 가능하면 비활성화하거나 ASN15169(구글 네트워크) 예외 처리

Under Attack Mode(공격 감지 모드) 비활성화

  • 영향: 모든 방문자에게 5초 지연 페이지가 나타나며, Googlebot은 이 인증을 통과하지 못해 완전히 차단됨
  • 조치: Cloudflare 콘솔 메인 화면 → “Under Attack Mode” 스위치가 꺼져 있는지 확인

검색 엔진 대상 JS Challenge 비활성화

치명적인 문제: “브라우저 무결성 검사”가 켜져 있으면 일부 봇(특히 모바일 Googlebot)은 JS 실행이 불가능하여 크롤링 실패

조치: “보안” → “설정” → “브라우저 무결성 검사” → “검색 엔진에는 적용하지 않음” 체크

추가 팁: User-AgentGooglebot이 포함된 요청에 대해 JS Challenge를 개별적으로 비활성화하는 규칙을 추가할 수도 있습니다.

꼭 설정해야 할 방화벽 화이트리스트 규칙

보안 수준을 낮추는 것만으로는 위험할 수 있습니다. 더 안전한 방법은 Googlebot만 정확히 허용하는 방화벽 규칙을 설정하는 것입니다.

Cloudflare는 User-Agent, IP, ASN(자율 시스템 번호) 기준으로 화이트리스트를 구성할 수 있습니다.

User-Agent 화이트리스트 (가장 우선)

역할: Googlebot이 포함된 User-Agent 요청을 모두 허용하여 방화벽 필터를 우회시킴

설정 경로:

Cloudflare 대시보드 → “보안” → “WAF” → “규칙” → 새 규칙 생성

  • 조건: User-Agent포함 → 정규표현식 입력: .*Googlebot.*
  • 동작: “우회” 또는 “스킵” 선택

주의: Googlebot-Image (이미지 크롤러), Googlebot Smartphone (모바일 크롤러) 등 다양한 유형도 함께 허용해야 합니다.

ASN 화이트리스트 (User-Agent 위조 방지)

필요성: 악성 봇이 Googlebot UA를 위조할 수 있으므로, IP 소스를 함께 확인해야 더 안전합니다.

설정: 방화벽 규칙에 다음 조건 추가:

  • 필드: ASN같음15169 입력 (Google 전용 글로벌 서버 ASN)
滚动至顶部