Site marcado pelo Google como “conteúdo de spam”|Mas páginas específicas não podem ser encontradas

本文作者:Don jiang

O mecanismo do Google para identificar conteúdo lixo é complexo. Às vezes, páginas que violam as regras estão bem escondidas (como páginas de cadastro de usuários, conteúdos de testes antigos) ou há injeção de código lixo devido a falhas em plugins de terceiros, o que faz com que os administradores do site investiguem repetidamente sem encontrar pistas.

Este artigo oferece uma solução de baixo custo e fácil execução.

Você vai aprender como usar as pistas ocultas de dados do Google Search Console, escanear eficientemente as “áreas escondidas” do site, e limpar conteúdos antigos e riscos de backlinks que costumam ser ignorados.

Site marcado pelo Google como ‘conteúdo lixo’

Primeiro, verifique as pistas ocultas no Google Search Console

Quando o site é marcado como “conteúdo lixo”, o Google Search Console é a forma mais direta de investigar.

Mas muitos administradores só prestam atenção nas notificações de “ações manuais” e ignoram as pistas ocultas no painel — como páginas com tráfego anormal, palavras-chave que foram penalizadas pelo algoritmo, e até entradas secretas hackeadas.

Cheque o relatório “Segurança e ações manuais”

  • No menu lateral, clique em “Segurança e ações manuais” > “Ações manuais” para ver se há algum tipo claro de violação (como “conteúdo lixo”, “páginas disfarçadas”).
  • Se houver notificação, corrija as páginas indicadas; se mostrar “nenhum problema”, pode ser uma marcação automática do algoritmo (precisa investigar mais).

Filtre o tráfego anormal no relatório de “Desempenho”

  • Entre no relatório de desempenho, defina o período para “últimos 28 dias” e filtre a aba “Impressões na pesquisa”.
  • Ordene pelo CTR (taxa de cliques) do menor para o maior e encontre páginas com CTR muito baixo (exemplo: menor que 1%) ou páginas que tiveram aumento brusco de impressões mas sem cliques. Essas páginas podem ser consideradas “conteúdo de baixa qualidade/lixo” pelo Google.

Exporte dados do status de indexação das páginas

Na seção de indexação do console, baixe o relatório “Status de indexação das páginas”, focando em:

  • Páginas excluídas (como “conteúdo duplicado” ou marcadas como noindex).
  • Páginas 404 inesperadas (podem ser URLs inválidas criadas após invasão).

Monitore riscos de backlinks na seção “Links”

Entre em “Links” > “Links externos” e verifique se recentemente houve muitos textos âncora repetidos ou links vindos de sites com baixa autoridade, pois esses links podem causar punição por “spam de backlinks”.

Verifique se houve alterações suspeitas recentes no site

Se o Google Search Console não mostrar pistas claras, o problema provavelmente está em alterações recentes — como uma falha em novo plugin que injetou código lixo, ou mudanças na estratégia de SEO que ativaram regras do algoritmo.

Cheque se a estratégia de SEO foi “exagerada”

  • Keyword stuffing (excesso de palavras-chave): recentemente foram repetidas muitas vezes as mesmas palavras-chave no título, corpo ou tags alt? Use ferramentas (ex: SEOquake) para checar a densidade de palavras-chave; acima de 5% é preciso otimizar.
  • Geração massiva de conteúdo de baixa qualidade: páginas criadas por IA foram publicadas sem revisão manual? Verifique legibilidade e duplicidade com ferramentas como Copyscape.

Vulnerabilidades causadas por atualizações de plugins/temas

  • Novos plugins instalados: principalmente plugins de coleta automática (ex: captura automática de artigos), páginas de registro de usuários, que podem ser usados por hackers para criar páginas lixo.
  • Risco de injeção de código: confira se arquivos do tema como functions.php ou header.php foram modificados com códigos suspeitos (scripts de redirecionamento, links ocultos).
  • Solução temporária: desative plugins ou funções recentes e veja se os alertas do Google desaparecem.

Crescimento súbito de backlinks ou textos âncora suspeitos

  • Use Ahrefs ou Semrush para checar fontes de backlinks novos: surgiram muitos links de setores não relacionados como jogos de azar ou medicina?
  • Textos âncora suspeitos: por exemplo, muitos links com palavras-chave spam como “download grátis”, “compras baratas”.

Registros suspeitos nos logs do servidor

Revise logs do último mês (caminho: /var/log/apache2/access.log) para:

  1. Acessos frequentes à página de login (ex: wp-admin).
  2. Requisições POST para caminhos incomuns (ex: /upload.php).
  3. Muitos erros 404 (possível tentativa de invasão).

Dicas chave

  • Priorize reverter mudanças arriscadas: desinstale plugins suspeitos, restaure versões anteriores de códigos.
  • Conteúdo gerado por usuários (UGC) é um ponto crítico: cheque comentários e perfis de usuários para spam e habilite moderação (plugin: Antispam Bee).

Use ferramentas para escanear todo o site e não perca os “cantinhos escondidos”

Procurar manualmente em centenas ou milhares de páginas é como achar uma agulha no palheiro. Conteúdo lixo costuma ficar em páginas de registro, URLs dinâmicas com parâmetros ou diretórios de teste abandonados.

Esses “cantinhos escondidos” podem ser rastreados pelo Google, mas você talvez nunca tenha notado.

Use um crawler para capturar todos os links do site

Screaming Frog (versão gratuita varre até 500 URLs): insira a URL do site para que ele escaneie todas as páginas automaticamente, depois exporte e filtre links suspeitos.

  • URLs com parâmetros suspeitos: como ?utm_source=spam, /ref=123ab.
  • Diretórios não convencionais: como /temp/, /old/, /backup/.
  • Checkbot (extensão para navegador): detecta automaticamente links quebrados, conteúdo hackeado e títulos duplicados.

    Verificação em massa de conteúdo duplicado/plagiado

    • Siteliner (gratuito): insira o domínio e ele gera um relatório, destacando páginas com alta taxa de conteúdo duplicado interno (como descrições de produtos muito parecidas).
    • Copyscape Premium: pago, mas bem preciso, verifica se alguma página sua foi copiada por sites externos (ou se você copiou de outros).

    Principais “áreas sujas” para escanear

    Conteúdo gerado por usuários (UGC):

    1. Seção de comentários: use site:seudominio.com inurl:comments para buscar spam nos comentários.
    2. Perfis de usuários: como /author/john/, /user/profile/, acesse diretamente para checar conteúdos suspeitos.

    Assinatura RSS / caminhos de API:

    Em sites WordPress, cheque se /feed/ ou /wp-json/ não foram infectados com spam.

    Paginação e filtros:

    Exemplo: /category/news/page/99/ — essas páginas finais podem estar vazias ou conter conteúdo duplicado.

    Análise dos logs do servidor para detectar anomalias

    Use o comando grep ou filtro no Excel para analisar os últimos 30 dias dos logs:

    • Páginas desconhecidas com muitos acessos (ex: /random-page.html).
    • Robôs de busca com frequência de acesso fora do normal (hackers às vezes se disfarçam de Googlebot).

    Dicas importantes

    • Cuidado com páginas com parâmetros dinâmicos: tipo /product?id=xxx, verifique se não estão gerando muito conteúdo duplicado por causa dos parâmetros.
    • Características de páginas hackeadas: títulos com palavras relacionadas a jogos de azar ou sexo; páginas com texto escondido ou códigos de redirecionamento.
    • Se encontrar muitas páginas problemáticas, envie no Google Search Console um pedido para “remover snapshot” para conter o dano temporariamente.

    Tratando conteúdos antigos, páginas de teste e outras fontes ocultas de spam

    Você pode pensar que “limpou” os posts antigos e páginas de teste, mas o Google ainda pode considerar esses conteúdos como “spam”.

    Eles ficam sem manutenção por muito tempo, podem ser hackeados com links escondidos ou conter informação desatualizada que confunde os usuários, o que prejudica a reputação geral do site.

    Conteúdo expirado: delete ou marque páginas como “sem valor”

    • Páginas antigas de produtos/blog: use ferramentas (como Screaming Frog) para filtrar páginas sem atualização há mais de 1 ano, delete ou adicione a tag noindex.
    • Páginas de promoções expiradas: cheque diretórios /promo/, /sale/, se o produto saiu do ar, faça redirecionamento 301 para produtos similares.
    • Páginas agregadas com conteúdo duplicado: como arquivos por data (/2020/), se o tráfego for zero, aplique noindex.

    Páginas de teste deixadas durante o desenvolvimento

    • Escaneie diretórios temporários: procure por /test/, /demo/, /temp/ e verifique se estão indexados (usando site:seudominio.com inurl:test).
    • Remova páginas de funcionalidades abandonadas: por exemplo, páginas de teste para agendamento (/booking-test/), delete totalmente e envie como link morto.

    Páginas hackeadas com parâmetros de spam

    Cheque URLs com parâmetros suspeitos:

    • Pesquise no Google site:seudominio.com intext:jogo|barriga de aluguel|nota fiscal para localizar páginas hackeadas.
    • Analise logs do servidor para URLs com parâmetros suspeitos como ?ref=spam, delete e bloqueie essas regras de parâmetros.

    Corrija vulnerabilidades: mude a senha do banco de dados, atualize plugins/temas para as versões mais recentes.

    Conteúdo gerado por usuários de baixa qualidade (UGC)

    • Limpeza em massa de perfis de usuários: no WordPress, cheque /author/nomeusuario/, delete contas sem posts ou informações.
    • Bloqueie caminhos de comentários spam: adicione no robots.txt Disallow: /*?replytocom= para evitar indexação de paginação de comentários.

    Dicas importantes

    • Priorize páginas já indexadas pelo Google: valide com site:seudominio.com + nome do diretório, por exemplo site:seudominio.com /test/.
    • Não dependa só da exclusão, envie atualizações: após a limpeza, use a ferramenta de remoção de URLs no Google Search Console para acelerar a atualização do índice.

    Lembre-se que a revisão manual do Google geralmente leva de 1 a 3 semanas. Durante esse tempo, mantenha o site atualizado para evitar que o algoritmo penalize novamente.