Após enviar o sitemap丨Por que o Google indexou apenas algumas páginas

本文作者：Don jiang

2025-05-09

Home » 博客 » Artigos Selecionados » Após enviar o sitemap丨Por que o Google indexou apenas algumas páginas

Após enviar o sitemap através do Google Search Console e notar que o número de páginas realmente indexadas é muito menor do que o esperado, os administradores de sites cometem frequentemente o erro de aumentar cegamente o número de envios ou modificar o arquivo repetidamente.

De acordo com dados oficiais de 2023, mais de 67% dos problemas de indexação são causados por três razões principais: configuração incorreta do sitemap, caminhos de coleta de dados bloqueados e páginas de baixa qualidade.

Table of Contens

Erros no arquivo do sitemap

Se o sitemap enviado não for processado completamente pelo Google, a principal causa são erros técnicos dentro do próprio arquivo.

Examinamos o sitemap de uma plataforma de e-commerce e descobrimos que, devido à falta de filtragem de parâmetros dinâmicos de URL nas páginas de produtos, 27.000 links duplicados estavam poluindo o arquivo, fazendo com que o Google indexasse apenas a página principal.

▍Erro 1: Erros de formato que interrompem a análise

Fonte dos dados: Relatório de auditoria de site Ahrefs 2023

Exemplo típico: Um sitemap de um site médico codificado em Windows-1252, o que impediu que o Google processasse 3.200 páginas, indexando apenas a página inicial (aviso “Não pode ser lido” na Google Search Console)

Erros comuns：

✅ Tags XML mal fechadas (43% dos erros de formato)
✅ Caracteres especiais não codificados corretamente (por exemplo, o símbolo & usado diretamente em vez de &)
✅ Ausência da declaração de namespace xmlns (<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> ausente)

Solução de emergência：

Verifique a estrutura obrigatória com o Validador de Sitemap
Instale o plugin XML Tools no VSCode para verificar a sintaxe em tempo real

▍Erro 2: Links quebrados causam problemas de confiança

Estudo setorial: Dados coletados de 500.000 sites pelo Screaming Frog

Dados surpreendentes：

✖️ Em média, cada sitemap contém 4,7% de links quebrados (404/410)
✖️ Sitemaps que contêm mais de 5% de links quebrados resultam em uma redução de 62% na indexação

Exemplo real: O sitemap de uma plataforma de viagens continha páginas de produtos excluídas (redirecionamento 302 para a página inicial), o que o Google percebeu como uma tentativa de manipulação da indexação, retardando a indexação do conteúdo principal por 117 dias

Solução：

Configure a ferramenta de coleta para simular um “User-Agent” do Googlebot para simular a coleta de todos os URLs do sitemap
Exporte os links cujo status não seja 200 e adicione <robots noindex> a eles ou remova-os do sitemap

▍Erro 3: Tamanho excessivo do arquivo causa redução dos dados

Aviso das limitações do Google：

⚠️ Se um sitemap exceder 50 MB ou contiver mais de 50.000 URLs, seu processamento será interrompido automaticamente

Exemplo catastrófico: O sitemap de um site de notícias não foi segmentado e continha 82.000 links de artigos, fazendo com que o Google processasse apenas os primeiros 48.572 links (confirmado pela análise de logs)

Estratégia de segmentação：
🔹 Segmente por tipo de conteúdo: /sitemap-articles.xml, /sitemap-products.xml
🔹 Segmente por data: /sitemap-2023-08.xml (ideal para sites com atualizações frequentes)

Monitoramento do tamanho do arquivo：

Use um script Python toda semana para contar o número de linhas no arquivo (wc -l sitemap.xml) e configure um alerta quando o número de linhas atingir 45.000.

▍Erro 4: Abuso da frequência de atualização que retarda a indexação

Mecanismos de defesa contra o rastreamento：

🚫 O abuso do campo <lastmod> (por exemplo, marcar a data atual para todas as páginas) retarda a indexação em 40%

Liçãã aprendida: Um fórum atualizou a data lastmod de todas as páginas todos os dias, e após três semanas, a taxa de indexação caiu de 89% para 17%

Práticas recomendadas：

✅ Atualize <lastmod> apenas para páginas que realmente mudaram (preciso até o minuto: 2023-08-20T15:03:22+00:00)
✅ Configure <changefreq>monthly</changefreq> para páginas antigas para reduzir a carga do rastreamento

Estrutura do site bloqueando os caminhos de rastreamento

Mesmo que o sitemap esteja perfeito, a estrutura do site ainda pode ser um “labirinto” para o Googlebot.

Páginas construídas com React que não estão pré-renderizadas serão consideradas pelo Google como páginas “vazias”, com 60% do seu conteúdo.

Quando a distribuição de links internos é desigual (por exemplo, se a página inicial contiver mais de 150 links externos), a profundidade de rastreamento será limitada a dois níveis, o que significa que páginas mais profundas, como as de produtos, nunca serão indexadas.

▍

robots.txt bloqueia páginas importantes

Exemplos comuns：

A configuração padrão do WordPress é Disallow: /wp-admin/, bloqueando URLs de artigos relacionados (por exemplo, /wp-admin/post.php?post=123)
Um site criado com Shopify gera automaticamente Disallow: /a/ para bloquear páginas de perfil de membros

Impactos dos dados：

✖️ 19% dos sites perdem mais de 30% do índice devido a um erro na configuração do robots.txt
✖️ Quando o Googlebot encontra uma regra Disallow, leva em média 14 dias para verificar novamente o caminho

Soluções：

Use a ferramenta de teste de robots.txt para verificar o impacto das regras
Não bloqueie URLs com parâmetros dinâmicos como ?ref= (a menos que tenha certeza de que não contêm conteúdo)
Para páginas bloqueadas de forma inadequada, após remover as restrições no robots.txt, envie-as manualmente para reindexação usando a ferramenta de inspeção de URL

▍ Renderização JS que causa falta de conteúdo

Riscos dos frameworks：

Aplicações de página única (SPA) com React/Vue: se não houver renderização no lado do servidor, o Google só rastreia 23% dos elementos DOM
Imagens com carregamento preguiçoso (Lazy Load): 51% dos casos em dispositivos móveis não carregam corretamente

Caso real：

Uma plataforma de e-commerce usa Vue para renderizar preços e especificações dinamicamente, o que fez com que o conteúdo indexado pelo Google tivesse uma média de apenas 87 caracteres (quando o esperado era mais de 1200), e a taxa de conversão caiu 64%

Medidas de emergência：

Use a ferramenta de teste de compatibilidade móvel para verificar a integridade da renderização
Implemente renderização do lado do servidor (SSR) nas páginas-chave de SEO ou use Prerender.io para gerar uma versão estática das páginas
Adicione conteúdo essencial dentro da tag <noscript> (pelo menos H1 + 3 linhas de descrição)

▍ Distribuição desequilibrada do peso dos links internos

Limites de profundidade de rastreamento：

Mais de 150 links externos na página inicial: a profundidade média de rastreamento cai para 2.1 níveis
Se a profundidade de clique em conteúdo-chave for superior a 3 níveis, a probabilidade de indexação cai para 38%

Estratégia de otimização estrutural：

✅ Incluir níveis obrigatórios de categoria na navegação de migas de pão (exemplo: página inicial > eletrônicos > celulares > Huawei P60)
✅ Adicionar um módulo “páginas importantes” nas páginas de listas para aumentar manualmente o peso dos links internos para as páginas alvo
✅ Usar Screaming Frog para identificar páginas órfãs (Orphan Pages) sem links internos e vinculá-las no final dos artigos relevantes

▍ Uso indevido de tags de paginação/canonical

Operação suicida：

Usar rel="canonical" em páginas de produtos apontando para a página inicial: isso faz com que 63% das páginas sejam fundidas e removidas
Esquecer de adicionar rel="next"/"prev" nas páginas de comentários: isso dilui o peso da página principal

Filtragem de conteúdo por baixa qualidade

O relatório de algoritmos do Google de 2023 confirma que 61% das páginas com baixa indexação não foram indexadas devido a problemas de qualidade de conteúdo

Quando as páginas com o mesmo modelo ultrapassam 32% de semelhança, a taxa de indexação cai para 41%. Páginas que demoram mais de 2,5 segundos para carregar em dispositivos móveis também perdem prioridade no rastreamento.

Conteúdo duplicado causando colapso de confiança

Limites de lista negra da indústria：

Se páginas criadas a partir do mesmo modelo (como páginas de produtos) tiverem mais de 32% de semelhança, a taxa de indexação cai para 41%
Detecção de conteúdo duplicado: Copyscape mostra que mais de 15% de conteúdo repetido ativa a fusão de índices

Caso real：

Um site de vendas por atacado de roupas criou 5200 páginas de produtos com a mesma descrição. O Google indexou apenas a página principal (com um aviso de “página alternativa” no Search Console), e o tráfego orgânico caiu 89% em uma semana

Solução definitiva：

Use a biblioteca difflib do Python para calcular a semelhança entre as páginas e excluir as que têm mais de 25% de conteúdo duplicado
Para páginas similares necessárias (como páginas para cidades), adicione uma descrição diferenciada na tag <meta name="description">
Adicione a tag rel="canonical" nas páginas duplicadas para apontar para a versão principal

html

<link rel="canonical" href="https://example.com/product-a?color=red" />

▍ Desempenho de carregamento ultrapassa o limite tolerável

Core Web Vitals – Limite crítico：

FCP (First Contentful Paint) em dispositivos móveis ＞ 2,5 segundos → Prioridade de rastreamento reduzida
CLS (Cumulative Layout Shift) ＞ 0,25 → Atraso na indexação aumenta 3 vezes

Lição aprendida：

Um site de notícias não comprimiu as imagens na tela inicial (tamanho médio de 4,7 MB), o que resultou em um LCP (Largest Contentful Paint) de 8,3 segundos em dispositivos móveis, e 12.000 artigos foram marcados pelo Google como “conteúdo de baixo valor”.

Lista de otimização rápida：

✅ Usar o formato WebP em vez de PNG/JPG, comprimir em massa com Squoosh até ≤150KB
✅ Carregar o CSS da tela inicial de forma inline, carregar JS não essencial de forma assíncrona (adicionar os atributos async ou defer)
✅ Hospedar scripts de terceiros no localStorage para reduzir as requisições externas (por exemplo, usar GTM para hospedar o Google Analytics)

▍ Falta de dados estruturados leva a uma redução na prioridade

Regras de ponderação para rastreamento：

Páginas com esquema FAQ → Aceleração da indexação em 37%
Sem nenhuma marcação estruturada → O tempo de espera na fila de indexação aumenta para 14 dias

Estudo de caso：

Um site médico adicionou marcações de detalhes de doenças MedicalSchema na página do artigo, o que aumentou a cobertura de indexação de 55% para 92%, e o ranking de palavras-chave de cauda longa aumentou 300%.

Código prático：

html

<script type="application/ld+json">  
{  
  "@context": "https://schema.org",  
  "@type": "FAQPage",  
  "mainEntity": [{  
    "@type": "Question",  
    "name": "Como melhorar a indexação no Google?",  
    "acceptedAnswer": {
"@type": "Answer",  
"text": "Otimizar a estrutura do sitemap e a velocidade de carregamento das páginas"  
}  
}]  
}  
</script>

Configuração do servidor prejudica a eficiência do rastreamento

Abuso do parâmetro Crawl-delay

Mecanismo de resposta do Googlebot：

Ao configurar Crawl-delay: 10 → o número máximo de páginas rastreadas por dia diminui de 5000 para 288
No estado padrão sem restrições → o Googlebot rastreia, em média, 0,8 página por segundo (ajustado automaticamente conforme a carga do servidor)

Exemplo real：

Um fórum configurou Crawl-delay: 5 no arquivo robots.txt para evitar sobrecarga no servidor, o que fez com que o número de páginas rastreadas pelo Google caísse de 820.000 para 43.000 por mês, com um atraso de 23 dias na indexação de novos conteúdos.

Estratégia de correção：

Remover a declaração Crawl-delay (o Google ignora claramente esse parâmetro)
Usar restrições para bots específicos, como Googlebot-News
Configurar um limite inteligente de taxa no Nginx:

nginx

# Permitir apenas Googlebot e Bingbot
limit_req_zone $anti_bot zone=googlerate:10m rate=10r/s;  

location / {  
    if ($http_user_agent ~* (Googlebot|bingbot)) {  
        limit_req zone=googlerate burst=20 nodelay;  
    }  
}

Bloqueio incorreto de intervalos de IP

Características dos intervalos de IP do Googlebot：

Intervalo IPv4: 66.249.64.0/19, 34.64.0.0/10 (adicionado em 2023)
Intervalo IPv6: 2001:4860:4801::/48

Exemplo de erro：

Um site de comércio eletrônico bloqueou incorretamente o intervalo de IP 66.249.70.* por meio do firewall Cloudflare (falsamente identificado como um ataque de bot), o que impediu o Googlebot de rastrear por 17 dias consecutivos, e o índice caiu em 62%.
Adicionar uma regra no firewall do Cloudflare: (ip.src in {66.249.64.0/19 34.64.0.0/10} and http.request.uri contains "/*") → Allow

Bloquear recursos essenciais para renderização

Lista de bloqueio：

Bloquear *.cloudflare.com → Impede o carregamento de 67% dos arquivos CSS/JS
Bloquear Google Fonts → A taxa de falhas no layout móvel chega a 89%

Exemplo：

Uma plataforma SAAS bloqueou o domínio jquery.com, causando erro no JS durante o processo de renderização da página pelo Googlebot, resultando em uma taxa de análise de HTML na página de documentação de apenas 12%

Solução para desbloqueio：

1. Adicionar à lista branca na configuração do Nginx:

nginx

location ~* (jquery|bootstrapcdn|cloudflare)\.(com|net) {
allow all;
add_header X-Static-Resource "Unblocked";
}

2. Adicionar o atributo crossorigin="anonymous" aos recursos carregados de forma assíncrona:

html

<script src="https://example.com/analytics.js" crossorigin="anonymous">script>

Tempo de resposta do servidor expirado

Limites de tolerância do Google：

Tempo de resposta > 2000ms → A probabilidade de a sessão ser encerrada antecipadamente aumenta em 80%
Processamento de requisições por segundo < 50 → O orçamento de rastreamento é reduzido para 30%

Exemplo de falha：

Um site WordPress não ativou o OPcache, o que fez com que as consultas ao banco de dados demorassem até 4,7 segundos, o que fez a taxa de expiração de tempo do Googlebot aumentar para 91%, causando uma parada na indexação.

Otimização de desempenho：
1. Configuração de otimização do PHP-FPM (aumentar a concorrência em 3 vezes):

ini

pm = dynamic
pm. max_children = 50
pm. start_servers = 12
pm. min_spare_servers = 8
pm. max_spare_servers = 30

2. Forçar otimização de índices do MySQL:

sql

ALTER TABLE wp_posts FORCE INDEX (type_status_date);

Usando o método acima, você pode manter a diferença do índice estável em menos de 5%.
Se você quiser aumentar a taxa de rastreamento do Google, consulte o nosso GPC Crawler Pool.

Don Jiang

SEO本质是资源竞争，为搜索引擎用户提供实用性价值，关注我，带您上顶楼看透谷歌排名的底层算法。

Após enviar o sitemap丨Por que o Google indexou apenas algumas páginas

Erros no arquivo do sitemap

▍Erro 1: Erros de formato que interrompem a análise

▍Erro 2: Links quebrados causam problemas de confiança

▍Erro 3: Tamanho excessivo do arquivo causa redução dos dados

▍Erro 4: Abuso da frequência de atualização que retarda a indexação

Estrutura do site bloqueando os caminhos de rastreamento

▍

robots.txt bloqueia páginas importantes

▍ Renderização JS que causa falta de conteúdo

▍ Distribuição desequilibrada do peso dos links internos

▍ Uso indevido de tags de paginação/canonical

Filtragem de conteúdo por baixa qualidade

Conteúdo duplicado causando colapso de confiança

▍ Desempenho de carregamento ultrapassa o limite tolerável

▍ Falta de dados estruturados leva a uma redução na prioridade

Configuração do servidor prejudica a eficiência do rastreamento

Abuso do parâmetro Crawl-delay

Bloqueio incorreto de intervalos de IP

Bloquear recursos essenciais para renderização

Tempo de resposta do servidor expirado

Conteúdo original fora do ranking, sites copiados no TOP10 丨 O algoritmo do Google contra fazendas de conteúdo falhou

A estratégia de zero backlinks é viável丨Seu site pode realmente chegar à primeira página do Google

A negligenciada “fase de declínio de conteúdo” 丨 5 métodos orientados por dados para recuperar tráfego em páginas antigas

Mesma palavra-chave丨Por que os rankings do Google no desktop e mobile diferem

Classificações de palavras-chave desaparecem da noite para o dia | Como lidar com atualizações Phantom em sites não penalizados

Guia Completo EEAT: Os 4 Principais Critérios de Qualidade de Conteúdo do Google (Autoridade × Expertise × Confiabilidade × Guia de Experiência)

Os robôs do Google fazem pedidos em sites independentes丨Desvendando a verdade sobre pedidos falsos

GTM Gatilho de Adicionar ao Carrinho丨Guia Completo de Configuração e Otimização (Atualizado 2025)

Estratégia de indexação no Google em conformidade com EEAT丨Técnicas de SEO para indexação em 1 dia

Guia de Evitação de Armadilhas SEO do Google 2025: Como os algoritmos detectam e penalizam sites de baixa qualidade

服务时间