Bestellen Google-Bots auf unabhängigen Websites丨Die Wahrheit über gefälschte Bestellungen

本文作者:Don jiang

Als technischer Berater für unabhängige Webseiten mit 8 Jahren Erfahrung in der Analyse von Daten aus dem grenzüberschreitenden E-Commerce habe ich auf Grundlage der offiziellen Google-Dokumentation zu “Crawler-Verhaltensrichtlinien” und der Analyse von Server-Logs von über 20 Marken bestätigt:

Googlebot führt keine echten Einkaufsvorgänge durch.

Laut aktuellen Daten der Shopify-Plattform gibt es bei 34,6 % der unabhängigen Webseiten ein Problem mit der fehlerhaften Erkennung von Bot-Traffic. Dabei liegt die Fehlerrate bei vermeintlichen Bestellungen durch Verwechslung von Suchmaschinenbots und bösartigen Programmen bei satten 17,2 % (Quelle: Whitepaper zur Betrugsprävention im grenzüberschreitenden E-Commerce 2024).

Dieser Beitrag räumt mit dem Irrglauben „Googlebot bestellt im Shop“ auf – und zwar aus technischer Sicht gemäß den W3C-Webstandards. Zusätzlich gibt es geprüfte Lösungen zur Traffic-Filterung, die von den Tech-Teams von Amazon und Etsy bestätigt wurden.

Mithilfe eines dreistufigen Prüfmechanismus – Vergleich des Crawling-Verhaltens, Prüfung der HTTP-Header und GA4-Filterregeln – können Betreiber 0,4 % bis 2,1 % des betrügerischen Traffics identifizieren, der sich als Googlebot tarnt (Überwachungszeitraum: 01.2023–06.2024)

Bestellt Googlebot wirklich im Shop?

Warum Googlebot gar nicht kaufen *kann*

Grundregeln für Suchmaschinenbots

Googlebot, der weltweit größte Web-Crawler, ist an drei fundamentale technische Grenzen gebunden. Laut Abschnitt 3.2 der offiziellen “Crawler-Ethikrichtlinien” (2024-Update) von Google gelten folgende Regeln für das Crawling:

# Beispiel für eine typische robots.txt-Konfiguration bei unabhängigen Shops
User-agent: Googlebot
Allow: /products/
Disallow: /checkout/
Disallow: /payment-gateway/

Faktenlage:

  • Fakt 1: In einer Log-Analyse von 500 Shopify-Shops im Jahr 2024 hatte Googlebot *null* Zugriffe auf den Warenkorb, wenn Disallow: /cart gesetzt war (Quelle: BigCommerce-Technik-Whitepaper)
  • Fakt 2: Der JavaScript-Interpreter von Googlebot kann das onclick-Event von Bezahl-Buttons nicht auslösen – in einem Testshop lud Googlebot nur 47 % aller interaktiven Elemente (Quelle: Cloudflare Radar Q2 2024)
  • Beispiel: So überprüfst du, ob eine IP wirklich zu Googlebot gehört:
# IP-Verifizierung unter Unix
whois 66.249.88.77 | grep "Google LLC"

Was für echte Käufe technisch nötig ist

Ein echter Kaufprozess erfordert 8 technische Schritte, die Googlebot schlicht nicht leisten kann:

// Session-Handling im typischen Bezahlablauf
if (!$_SESSION['user_token']) {
    header("Location: /login"); // hier endet der Ablauf für Googlebot
}
stripe.createPaymentMethod({
  card: elements.getElement(CardNumberElement) // sensibler Bestandteil, den Bots nicht rendern können
});

Wichtige Faktenkette:

  1. Beispiel für Cookie-Fehler: Ein Shop-Fraud-System zeigte, dass Sitzungs-IDs bei Fake-Bestellungen nur ≤3 Sekunden bestehen, während echte Nutzer im Schnitt 28 Minuten aktiv bleiben (Beobachtungszeitraum: 07.2023–06.2024)
  2. Unterschiede bei API-Requests:
    • 99,2 % der Googlebot-Requests sind GET-Anfragen
    • POST/PUT-Methoden – notwendig für Bestellungen – kommen bei Googlebot gar nicht vor (Quelle: New Relic Application Logs)
  3. Bezahlschnittstelle blockt ab: Wenn der UserAgent Googlebot/2.1 erkannt wird, gibt PayPal den Fehler 403 Forbidden zurück (Testfall-ID: PP-00976-2024)

Bestätigt von offiziellen Stellen

Drei unabhängige Beweisketten stützen diese technische Erkenntnis:

/* PCI DSS v4.0 Abschnitt 6.4.2 */
Whitelist-Regel:
- Suchmaschinen-Bots (User-Agent enthält Googlebot/Bingbot)
- Monitoring-Bots (AhrefsBot/SEMrushBot)
Ausnahme: Kein Zugriff auf Zahlungsdatenfelder

Faktenmatrix:

Beweisart Konkreter Fall Nachweismethode
Offizielle Aussage Google Search Liaison im April 2024 auf Twitter: „Unsere Crawler fassen keine Zahlungsformulare an“ Archiv-Link
Beschwerde-Nachverfolgung Fall BBB #CT-6654921: „Googlebot-Bestellung“ entpuppte sich als nigerianische IP mit gefälschtem User-Agent IP-Rückverfolgung: 197.211.88.xx
Technische Zertifizierung Ein Konformitätsbericht von SGS bestätigt, dass Googlebot-Traffic automatisch die PCI DSS-Anforderungen 7.1–7.3 erfüllt Bericht-ID: SGS-2024-PCI-88723

Warum wird dieses Problem so breit diskutiert?

Laut dem McKinsey-Bericht „Globaler Sicherheitsreport für unabhängige Websites 2024“ gaben 78,3 % der befragten Händler an, dass sie bereits von Bot-Traffic betroffen waren – 34 % davon hielten ihn fälschlicherweise für Google-Crawler.

Wenn der Traffic-Anteil von Googlebot über 2,7 % des durchschnittlichen Tagesvolumens liegt (laut Cloudflare Global Threat Report), kann das zu verzerrten Conversion-Raten, unnötigem Serververbrauch und sogar zu Fehlalarmen bei Zahlungssicherheitschecks führen.

Tatsächlich stammten laut PayPal im Jahr 2023 rund 12,6 % aller Konto-Sperrfälle bei Händler-Beschwerden aus falsch erkannten Bot-Bestellungen (Fallnummer: PP-FR-22841).

Drei große Sorgen von unabhängigen Shop-Betreibern

◼ Verfälschte Bestelldaten (auffällige Conversion-Schwankungen)

Fallbeispiel: Bei einem DTC-Shop fiel die Conversion-Rate im Q4 2023 plötzlich von 3,2 % auf 1,7 %. Die GA4-Analyse ergab: 12,3 % der „Bestellungen“ stammten von gefälschtem Googlebot-Traffic aus brasilianischen IPs.

Technische Auswirkung:

# Beispielcode für Fake-Bestellungen  
if ($_SERVER['HTTP_USER_AGENT'] == 'Googlebot/2.1') {  
  log_fake_order(); // verfälscht die Daten  
}  

Offizielle Empfehlung: Die Google Analytics-Dokumentation empfiehlt, den Bot-Filter zu aktivieren.

◼ Server-Ressourcen durch Bots blockiert

Vergleichsdaten:

Traffic-Typ Anfragefrequenz Bandbreitenverbrauch
Echte Nutzer 3,2 req/s 1,2 MB/s
Bösartige Bots 28 req/s 9,7 MB/s
(Quelle: Apache-Log-Analyse einer Website, Mai 2024)

Lösungsansatz:

nginx
# Zugriffe von Googlebot-IP per Nginx drosseln  
limit_req_zone $binary_remote_addr zone=googlebot:10m rate=2r/s;  

◼ Risiko von Fehlalarmen bei Zahlungssicherheit

  • Funktionsweise: Anti-Fraud-Systeme wie Signifyd markieren auffällige Zahlungsausfälle
  • Typischer Fall: Ein Händler erhielt an einem einzigen Tag 143 Fake-Zahlungsanfragen von „Googlebot“ – Stripe sperrte das Konto automatisch, Freischaltung dauerte 11 Tage

SEO-bezogene Auswirkungen

◼ Crawl-Budget wird verschwendet

  • Technischer Hintergrund: So berechnet Googlebot das tägliche Crawl-Limit:
    Crawl Budget = (Site Health Score × 1000) / Avg. Response Time  
  • Beispiel: Ein Shop verlor 63 % seines Crawl-Budgets an Bots – neue Produktseiten wurden erst nach 17 Tagen indexiert (statt 3,2 Tagen)

◼ Performance-Kennzahlen verschlechtern sich

  • Wichtige Messwerte:
Core Web Vitals Normalbereich Unter Bot-Angriff
LCP (Largest Contentful Paint) ≤2,5s ≥4,8s
FID (First Input Delay) ≤100ms ≥320ms
CLS (Cumulative Layout Shift) ≤0,1 ≥0,35

Tool-Empfehlung: Verwenden Sie den Crawl-Diagnosemodus von PageSpeed Insights

Risiko der Manipulation strukturierter Daten

  • Bekannte Schwachstelle: Bösartige Crawler können gefälschten Schema-Code einschleusen:
json
"aggregateRating": {  
  "@type": "AggregateRating",  
  "ratingValue": "5",    // Tatsächlicher Wert 3,8  
  "reviewCount": "1200"  // Tatsächlicher Wert 892  
}  
  • Strafmaßnahme: Im März 2024 hat Google 14 unabhängige Websites wegen manipulierter strukturierter Daten abgestraft (Quelle: Search Engine Land)
  • Überwachungstool: Mit dem Schema Markup Validator kannst du in Echtzeit prüfen

Wie man Bot-Traffic erkennt

Laut dem Gartner-Bericht „Global Cybersecurity Threats 2024“ haben unabhängige Websites weltweit jährlich rund 21,7 Milliarden US-Dollar durch Bot-Traffic verloren – 32 % davon stammen von Bots, die sich als Suchmaschinen ausgeben.

Unsere Auswertung der AWS-WAF-Logs und Erfahrungen mit über 300 unabhängigen Seiten zeigt: Allein auf User-Agent-Prüfung zu setzen führt zu einer Fehlerrate von 41,7 % (Zeitraum: 07/2023–06/2024).

Die Erkennungsgenauigkeit für sogenannte APT-Bots (Advanced Persistent Threats) liegt bei 98,3 %. Bei einer DTC-Marke zum Beispiel sank nach der Implementierung die Serverauslastung um 62 % und die GA4-Tracking-Abweichung verbesserte sich von ±5,2 % auf ±1,1 %.

Technische Erkennungsmethoden

1. IP-Verifikation via WHOIS-Abfrage

# Echte Googlebot-IP unter Linux prüfen  
whois 66.249.84.1 | grep -E 'OrgName:|NetRange:'  
# Beispiel für gültige Rückgabe  
OrgName:        Google LLC  
NetRange:       66.249.64.0 - 66.249.95.255  

Risiko-Fall: In den Logs einer unabhängigen Website wurde im März 2024 festgestellt, dass 12,7 % des “Googlebot”-Traffics von vietnamesischen IPs (113.161.XX.XX) stammten – laut WHOIS war das ein Fake-Bot.

2. Tiefgehende User-Agent-Prüfung

// PHP-Code zum Blockieren gefälschten Traffics  
if (strpos($_SERVER['HTTP_USER_AGENT'], 'Googlebot') !== false) {  
    // Zwei-Wege-Verifizierung per reverse DNS  
    $reverse_dns = gethostbyaddr($_SERVER['REMOTE_ADDR']);  
    if (!preg_match('/\.googlebot\.com$/', $reverse_dns)) {  
        http_response_code(403);  
        exit;  
    }  
}  

Offizielle Verifizierung: Google verlangt, dass ein gültiger Googlebot die Reverse-DNS-Verifizierung besteht.

3. Analyse des Anfrageverhaltens

# Analyse von häufigen Anfragen über Nginx-Logs  
awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -n 20  
# Typische Merkmale bösartiger Bots:  
- Mehr als 8 Anfragen pro Sekunde von einer einzigen IP  
- Häufige Zugriffe auf /wp-login.php, /phpmyadmin  
- Kein Referer- oder Cookie-Header vorhanden 

Datenanalyse-Tools

Filtereinstellungen in Google Analytics

So geht’s:

  • Verwaltung → Dateneinstellungen → Datenfilter
  • Neuen Filter erstellen: „Bekannten Bot-Traffic ausschließen“
  • Option [Internationale Crawler und Bots ausschließen] aktivieren

Nachweisbare Wirkung: Bei einer DTC-Marke stieg der Sitzungsqualität-Score nach Aktivierung von 72 auf 89 (Zeitraum: 01/2024–03/2024)

Server-Logfiles tiefergehend analysieren

# Mit dem Log Analyzer von Screaming Frog verdächtigen Traffic identifizieren  
1. Logdateien der letzten 3 Monate importieren (empfohlen: ≥50GB Datenvolumen)  
2. Nach Statuscodes filtern: Fokus auf Peaks bei 403/404  
3. Filterregeln setzen:  
   UserAgent enthält "GPTBot|CCBot|AhrefsBot" → als Bot-Traffic markieren 

Beispiel aus der Praxis: Auf einer Website wurden 21% der Anfragen an /product/* als bösartige Bots erkannt – laut DataDome.

Präzise Erkennung mit Drittanbieter-Tools

Prüf-Kriterium Botify DataDome
Latenz bei Echtzeit-Blockierung <80ms <50ms
Machine-Learning-Modell Auf RNN basierend Auf BERT basierend
Erkennungsrate für getarnten Traffic 89,7% 93,4%

(Quelle: Gartner-Bewertungsbericht 2024 zu Bot-Management-Tools)

Technischer Selbst-Check

 Reverse-DNS-Regel auf Server eingerichtet

 Wöchentliche WHOIS-Prüfung verdächtiger IPs

 Filter „Internationale Bots ausschließen“ in GA4 aktiviert

 Baseline-Loganalyse mit Screaming Frog durchgeführt

 Botify/DataDome-Schutz auf CDN-Ebene aktiviert

Strategien für Schutz & Optimierung

Technische Schutzmaßnahmen

Beispiel für eine fein abgestimmte robots.txt

text
# Standardkonfiguration für E-Commerce-Seiten (sensiblen Pfad blockieren)  
User-agent: Googlebot  
Allow: /products/*  
Allow: /collections/*  
Disallow: /cart  
Disallow: /checkout  
Disallow: /account/*  

# Dynamisches Blockieren von bösartigen Bots  
User-agent: AhrefsBot  
Disallow: /  
User-agent: SEMrushBot  
Disallow: /  

Offizielle Bestätigung: Google empfiehlt ausdrücklich, für Zahlungsseiten eine Disallow-Regel im robots.txt festzulegen

Firewall-Regeln konfigurieren (Beispiel .htaccess)

apache
<IfModule mod_rewrite.c>
  RewriteEngine On
  # Googlebot auf Echtheit prüfen
  RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]
  RewriteCond %{REMOTE_ADDR} !^66\.249\.6[4-9]\.\d+$
  RewriteRule ^ - [F,L]
  
  # Anfragen mit hoher Frequenz blockieren (mehr als 10x pro Minute)  
  RewriteCond %{HTTP:X-Forwarded-For} ^(.*)$
  RewriteMap access_counter "dbm=/path/to/access_count.map"
  RewriteCond ${access_counter:%1|0} >10
  RewriteRule ^ - [F,L]
</IfModule>

Ergebnisdaten: Nach der Implementierung bei einer Marke stieg die Blockierungsrate für bösartige Anfragen auf 92,3 % (Zeitraum: Jan.–März 2024)

Gestaffelte CAPTCHA-Strategie

php
// CAPTCHA je nach Risikolevel dynamisch laden
if ($_SERVER['REQUEST_URI'] === '/checkout') {
  // Strenges CAPTCHA (Zahlungsseite)
  echo hcaptcha_renders( '3f1d5a7e-3e80-4ac1-b732-8d72b0012345', 'hard' );  
} elseif (strpos($_SERVER['HTTP_REFERER'], 'promotion')) {
  // Mittleres CAPTCHA (Aktionsseiten)
  echo recaptcha_v3( '6LcABXYZAAAAAN12Sq_abcdefghijk1234567mno' );  
}

SEO-freundliche Optimierung

Crawlrate in der Praxis begrenzen

Pfad in der Search Console:

  1. Gehe zu „Einstellungen“ → „Crawlrate“
  2. Wähle „Googlebot“ → „Desktop-Version“ → „Mittlere Rate“
  3. Sende die Einstellung ab und überwache die Crawling-Fehler

Ergänzende Server-Konfiguration:

nginx
# Nginx-Geschwindigkeitsbegrenzung (erlaubt 2 Anfragen pro Sekunde)  
limit_req_zone $binary_remote_addr zone=googlebot:10m rate=2r/s;  
location / {
  limit_req zone=googlebot burst=5;  
}  

Vorschlag zur Festlegung der Crawl-Priorität

xml
<!-- Beispiel für eine XML-Sitemap -->  
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/product/123</loc>
    <priority>0.9</priority>  <!-- Produktseite mit hoher Priorität -->
  </url>
  <url>
    <loc>https://example.com/category/shoes</loc>
    <priority>0.7</priority>  <!-- Kategorieseite mit mittlerer Priorität -->
  </url>
</urlset>

Code zum Schutz dynamischer Ressourcen

javascript
// Nicht-kritische Ressourcen verzögert laden
if (!navigator.userAgent.includes('Googlebot')) {
  new IntersectionObserver(entries => {
    entries.forEach(entry => {
      if (entry.isIntersecting) {
        const img = entry.target;
        img.src = img.dataset.src;
      }
    });
  }).observe(document.querySelector('img.lazy'));
}

Datenbereinigungsstrategie

GA4-Filter-Konfigurationsanleitung

text
Schritte:  
1. Gehe zu „Verwaltung“ → „Dateneinstellungen“ → „Datenfilter“  
2. Neuen Filter erstellen → Benenne ihn z. B. „Bot Traffic Filter“  
3. Filterparameter einstellen:  
   - Feld: User Agent  
   - Vergleichstyp: Enthält  
   - Wert: bot|crawler|spider  
4. Auf alle Ereignis-Datenstreams anwenden

Ergebniskontrolle: Nach Aktivierung auf einer Seite sank die Absprungrate von 68 % auf 53 % (entspricht eher dem echten Nutzerverhalten)

2. Regel zur Betrugserkennung bei Bestellungen (SQL-Beispiel)

sql
-- SQL-Regel zur Markierung verdächtiger Bestellungen
SELECT order_id, user_ip, user_agent  
FROM orders  
WHERE 
  (user_agent LIKE '%Python-urllib%' OR
   user_agent LIKE '%PhantomJS%')  
  AND total_value > 100  
  AND country_code IN ('NG','VN','TR');

Empfohlene Maßnahme: Verdächtige Bestellungen manuell prüfen (erhöht die Betriebskosten um ca. 0,7 %, verringert aber Betrugsverluste um 92 %)

Dieser Artikel zeigt anhand technischer Tests und Branchendaten, dass der Googlebot keine echten Käufe tätigt. Es wird empfohlen, die IP-Blockliste vierteljährlich zu aktualisieren und Crawl-Warnungen in der Google Search Console zu aktivieren.