ウェブサイトがGoogleから「スパムコンテンツ」とマーク|しかし具体的なページが見つからない

本文作者:Don jiang

Googleのスパムコンテンツ判定メカニズムはとても複雑です。問題のあるページが深い場所に隠れていたり(例:ユーザー登録ページ、古いテスト用コンテンツ)、サードパーティ製プラグインの脆弱性によってスパムコードが埋め込まれ、サイト運営者が何度調査しても原因が見つからないことがあります。

この記事では、コストが低く、実行しやすい対処法を紹介します。

Google Search Consoleに隠されたデータのヒントを活用して、サイト内の“死角”を効率よくスキャンし、見落としがちな古いコンテンツや外部リンクのリスク要因を洗い出す方法を解説します。

Googleによって「スパムコンテンツあり」とされたサイト

まずは Google Search Console のデータヒントを確認

サイトが「スパムコンテンツあり」とマークされた場合、Google Search Consoleが最も直接的な手がかりになります。

ですが多くの管理者は「手動対策」の通知だけを見て、それ以外のバックエンドにあるヒント(例:異常なトラフィックのあるページ、アルゴリズムによる順位低下キーワード、ハッカーによって仕込まれた隠しパス)を見逃してしまいます。

「セキュリティと手動対策」レポートを確認

  • 左メニューから「セキュリティと手動対策」>「手動対策」を開き、違反タイプ(例:「スパムコンテンツ」「クローキングページ」)があるか確認します。
  • 警告がある場合は、ガイドに従って該当ページを修正します。問題がないと表示された場合でも、アルゴリズムによる自動判定の可能性があるので、追加調査が必要です。

「パフォーマンスレポート」で異常トラフィックをフィルター

  • 「パフォーマンスレポート」を開き、期間を「過去28日間」に設定し、「検索結果の表示」タブを選択します。
  • CTR(クリック率)が低い順で並べ替え、CTRが1%未満または表示数が急増したのにクリック数がほとんどないページを確認します。これらはGoogleに「低品質/スパムコンテンツ」とみなされている可能性があります。

「インデックス登録されたページ」のデータをエクスポート

「インデックス」タブの「インデックス登録されたページ」レポートをダウンロードし、以下の項目を重点的にチェックしましょう:

  • 除外されたページ(例:「重複コンテンツ」「noindexタグあり」)。
  • 想定外の404ページ(ハッキングで生成された無効なURLの可能性があります)。

「リンク」タブで外部リンクのリスクを追跡

「リンク」>「外部リンク」を開き、最近、アンカーテキストの繰り返しが多かったり出所ドメインの信頼性が極端に低いリンクが急増していないか確認します。これらは「スパム外部リンク」ペナルティの原因になります。

最近、サイトに怪しい変更がなかったかを確認

Google Search Consoleで明確なヒントが見つからなければ、最近のサイトの変更が問題の原因である可能性もあります。たとえば新しいプラグインの脆弱性、SEO設定の過剰調整などがアルゴリズムに引っかかってしまうことがあります。

SEO施策がやりすぎになっていないかチェック

  • キーワードの詰め込み:最近、タイトルや本文、Alt属性で同じキーワードを何度も繰り返していませんか? SEOquakeなどでキーワード密度を分析し、5%を超えていれば調整しましょう。
  • 低品質コンテンツの大量投入:AIツールで生成したコンテンツを人のチェックなしでそのまま公開していませんか? Copyscapeで可読性や重複率をチェックしましょう。

プラグイン・テーマの更新による脆弱性

  • 最近インストールしたプラグイン:特に自動収集系やユーザー登録機能があるプラグインは、悪用されてスパムページが生成される可能性があります。
  • コード挿入リスク:テーマファイルの functions.phpheader.php に怪しいコード(例:リダイレクトスクリプト、隠しリンク)が追加されていないか確認しましょう。
  • 一時的な対応:最近追加した機能やプラグインを一旦無効にして、Googleの警告が消えるか確認しましょう。

外部リンクの急増やアンカーテキストの異常

  • AhrefsSemrush を使って、「新たな外部リンク元」をチェック。ギャンブルや医療など、無関係な業種からのリンクが急増していませんか?
  • 怪しいアンカーテキスト:「無料ダウンロード」「激安代行購入」など、スパムっぽいキーワードが多く使われていないかを確認。

サーバーログで不審なアクセス履歴を追跡

過去1か月間のログファイル(例:/var/log/apache2/access.log)で以下のような項目を重点的にチェックします:

  1. 管理者ログインページ(wp-adminなど)への繰り返しアクセス
  2. 不審なパスへのPOSTリクエスト(例:/upload.php
  3. 大量の404エラー(ハッカーが脆弱性をスキャンしている可能性あり)

重要なヒント

  • リスクの高い変更から戻す:怪しいプラグインを削除するか、改変されたコードを旧バージョンに戻してみましょう。
  • ユーザー生成コンテンツ(UGC)はスパムの温床:コメントやユーザープロフィールページにスパムが含まれていないか確認し、必ず審査機能を有効化しましょう(おすすめプラグイン:Antispam Bee)。

ツールを使ってサイト全体をスキャン、“死角”を見逃さない

何百、何千ページも手作業でチェックするのは現実的ではありません。特にスパムコンテンツは、ユーザー登録ページや動的URL、テスト用ディレクトリなど、人目につかない場所に潜んでいます。

このような“死角”はGoogleにはクロールされても、運営者にはまったく気づかれないことがあります。

クローラーで全リンクを収集

Screaming Frog(無料版は500ページまで対応):サイトのURLを入力すると、すべてのページを自動でクロールしてくれます。結果をエクスポートして怪しいリンクを絞り込みましょう:

  1. 怪しいパラメータ付きURL:例:?utm_source=spam/ref=123abなど
  2. 通常でないディレクトリ:例:/temp//old//backup/など

Checkbot(ブラウザ拡張機能):リンク切れ、ハッキングされた内容、重複タイトルなどを自動チェックします。

重複・盗用コンテンツの一括チェック

  • Siteliner(無料):ドメインを入力すると、コンテンツが似ている内部ページをレポートで表示してくれます(例:商品説明の重複など)。
  • Copyscape Premium:有料ですが正確性が高く、自分のページが他サイトに盗用されたか、逆に他人のコンテンツを使っていないか確認できます。

特に注意すべき「スパムが潜むエリア」

ユーザー生成コンテンツ(UGC)

  1. コメント欄:site:あなたのドメイン.com inurl:commentsでスパムコメントがあるかチェック。
  2. ユーザープロフィール:/author/john//user/profile/などのURLを直接見て、不正なコンテンツがないか確認。

RSSフィード/APIパス

WordPressサイトの場合、/feed//wp-json/にスパムが埋め込まれていないかを確認します。

ページネーションやフィルター機能

/category/news/page/99/のような末尾ページは、空だったり重複コンテンツだったりすることが多いです。

サーバーログで異常を検知

grepやExcelなどで直近30日間のログをフィルタリングして確認:

  • 謎のページ(例:/random-page.html)への高頻度アクセス
  • 異常にクロールしてくる検索エンジンbot(ハッカーがGooglebotを偽装するケースも)

重要ポイント

  • 動的パラメータ付きページに注意/product?id=xxxのようなURLが、大量の無駄な重複ページを生むことがあります。
  • ハッキングされたページの特徴:タイトルにギャンブルやアダルト関連のキーワードが含まれていたり、隠しテキストやリダイレクトコードがあるなど。
  • 問題ページが多い場合は、まずGoogleサーチコンソールで「キャッシュ削除申請」を行って、一時的にブロックしましょう。

古いコンテンツやテストページに潜むゴミを掃除

すでに「全部削除した」と思っている古い記事やテストページが、Googleには「スパムコンテンツ」として見られている可能性があります。

放置されたり、ハッキングで隠しリンクが仕込まれていたり、古すぎてユーザーに誤解を与える内容だったりすると、サイト全体の評価が下がる原因になります。

期限切れコンテンツ:削除または「価値なし」ページとしてマーク

  • 古い商品ページ/ブログ記事:Screaming Frogなどのツールで1年以上更新されていないページを探し、削除またはnoindexタグを追加。
  • 終了したセールページ/promo//sale/ディレクトリ内のリンク先が販売終了している場合は、類似の新商品ページへ301リダイレクト。
  • 重複コンテンツのまとめページ:例えば/2020/のような日付アーカイブ。アクセスがゼロならnoindexに。

開発時に残されたテストページ

  • 一時ディレクトリのスキャン/test//demo//temp/などのパスがインデックスされていないか確認(例:site:ドメイン.com inurl:testで検索)。
  • 不要な機能テストページの削除:例:/booking-test/のような予約機能テストページ。ファイルを完全削除し、リンク切れとして報告。

ハッキングによって生成されたゴミURL

不審なパラメータ付きURLを確認

  • site:ドメイン.com intext:ギャンブル|代理出産|領収書などで検索し、改ざんされたページを特定
  • サーバーログで、アクセス頻度の高い不審なパラメータ付きリンク(例:?ref=spam)を探して削除&パラメータのブロック設定

脆弱性の修正:DBのパスワード変更、プラグインやテーマの最新バージョンへの更新

質の低いユーザー投稿(UGC)

  • ユーザープロフィールページの一括整理:WordPressで/author/username/を確認し、投稿なし・情報なしのアカウントを削除。
  • スパムコメントのパスをブロック:robots.txtにDisallow: /*?replytocom=を追加し、コメントページがインデックスされないように。

重要ポイント

  • まずはGoogleにインデックスされているページから対応site:ドメイン.com + ディレクトリ名で確認。例:site:ドメイン.com /test/
  • 削除するだけでなく、更新通知も忘れずに:清掃後はGoogleサーチコンソールの「URL削除ツール」でリンク切れの報告をして、インデックスの更新を早めましょう。

注意:Googleの手動審査には通常1〜3週間かかります。その間はコンテンツをちゃんと更新し続けて、再びスパム扱いされないようにしましょう。