Sitio web marcado por Google como “contenido spam”|Pero no se encuentran páginas específicas

本文作者:Don jiang

El mecanismo de Google para identificar contenido basura es complejo. A veces, las páginas que incumplen las normas están bien escondidas (como páginas de registro de usuarios o contenido de pruebas antiguas), o se inyecta código basura debido a vulnerabilidades en plugins de terceros, lo que hace que los administradores del sitio revisen repetidamente sin encontrar pistas.

Este artículo ofrece una solución bajo costo y de alta ejecución.

Aprenderás cómo aprovechar las pistas ocultas en Google Search Console, escanear eficazmente los “puntos ciegos” del sitio y limpiar contenido antiguo y riesgos en enlaces externos que a menudo se pasan por alto.

Sitio marcado por Google como con contenido basura

Primero revisa las pistas de datos en Google Search Console

Cuando un sitio es marcado como “contenido basura”, Google Search Console es la vía más directa para investigar.

Pero muchos administradores solo se fijan en las notificaciones de “acciones manuales” y pasan por alto pistas ocultas en el backend — como páginas con tráfico anómalo, palabras clave desvalorizadas por el algoritmo, e incluso entradas ocultas alteradas por hackers.

Revisa el reporte de “Seguridad y acciones manuales”

  • En el menú lateral izquierdo, haz clic en “Seguridad y acciones manuales” > “Acciones manuales” para ver si hay tipos claros de infracción (como “contenido basura” o “páginas engañosas”).
  • Si hay una notificación, corrige las páginas indicadas según la instrucción; si muestra “sin problemas”, puede ser una marca automática del algoritmo (se requiere mayor investigación).

Filtra tráfico anómalo en el reporte de “Rendimiento”

  • Entra en el “Reporte de rendimiento”, configura el rango de tiempo a “últimos 28 días” y filtra la pestaña “Impresiones en resultados de búsqueda”.
  • Ordena por CTR (tasa de clics) de menor a mayor, identifica páginas con CTR muy bajo (por ejemplo, menos de 1%) o con aumento súbito de impresiones pero sin clics. Estas páginas pueden ser consideradas “contenido de baja calidad/basura” por Google.

Exporta datos del estado de indexación de páginas

En la sección de indexación, descarga el reporte de “Estado de indexación de páginas”, prestando atención a:

  • Páginas excluidas (como “contenido duplicado” o marcado con noindex).
  • Páginas 404 inesperadas (posiblemente URLs inválidas creadas tras un hackeo).

Rastrea riesgos de enlaces externos en la sección “Enlaces”

Ve a “Enlaces” > “Enlaces externos” y revisa si hay una gran cantidad reciente de enlaces con texto ancla repetido o provenientes de sitios con baja autoridad, ya que esos enlaces pueden activar penalizaciones por “enlaces basura”.

Revisa si hubo cambios sospechosos recientes en el sitio

Si Google Search Console no muestra pistas claras, el problema probablemente esté en operaciones recientes — como una vulnerabilidad en un plugin nuevo que inyecta código basura, o ajustes en la estrategia SEO que activaron reglas algorítmicas.

Revisa si la estrategia SEO fue “demasiado agresiva”

  • Relleno de palabras clave: ¿Se añadieron muchas veces las mismas palabras clave en títulos, textos o etiquetas Alt? Usa herramientas como SEOquake para escanear la densidad; si supera el 5%, es necesario optimizar.
  • Generación masiva de contenido de baja calidad: ¿Se publicaron páginas generadas por IA sin edición humana? Revisa legibilidad y contenido duplicado con herramientas como Copyscape.

Vulnerabilidades por actualizaciones de plugins o temas

  • Plugins recién instalados: Especialmente plugins de recopilación automática (como los que recolectan artículos) o funciones de registro de usuarios, que pueden ser usados por atacantes para generar páginas basura.
  • Riesgo de inyección de código: Revisa si se añadieron códigos desconocidos (scripts de redirección o enlaces ocultos) en archivos functions.php o header.php del tema.
  • Solución temporal: Desactiva plugins o funciones añadidas recientemente y observa si desaparecen las alertas de Google.

Aumento repentino o texto ancla sospechoso en enlaces externos

  • Usa Ahrefs o Semrush para comprobar si aparecen muchos enlaces nuevos desde sectores no relacionados, como juegos de azar o medicina.
  • Texto ancla anómalo: Por ejemplo, muchos enlaces usan palabras clave basura como “descarga gratuita”, “compras baratas”.

Registros sospechosos en logs del servidor

Revisa logs del último mes (ubicación: /var/log/apache2/access.log) y busca:

  1. Accesos frecuentes a páginas de login (como wp-admin).
  2. Solicitudes POST a rutas no convencionales (como /upload.php).
  3. Muchos errores 404 (posibles intentos de hackers para detectar vulnerabilidades).

Consejos clave

  • Prioriza revertir cambios riesgosos: Por ejemplo, desinstalar plugins sospechosos o restaurar versiones anteriores de código.
  • El contenido generado por usuarios (UGC) es un punto vulnerable: Revisa comentarios y perfiles de usuarios, y activa moderación (plugin sugerido: Antispam Bee).

Usa herramientas para escanear todo el sitio y no pases por alto los “puntos ciegos”

Revisar manualmente cientos o miles de páginas es como buscar una aguja en un pajar. El contenido basura suele esconderse en páginas de registro de usuarios, URLs con parámetros dinámicos o directorios de prueba abandonados.

Estas “zonas muertas” pueden ser rastreadas por Google, pero quizás nunca las hayas notado.

Utiliza un crawler para obtener todos los enlaces del sitio

Screaming Frog (la versión gratuita permite rastrear hasta 500 URLs): introduce la URL del sitio para que la herramienta rastree automáticamente todas las páginas, luego exporta y filtra los enlaces anómalos.

  • URLs con parámetros sospechosos: como ?utm_source=spam, /ref=123ab.
  • Directorios no convencionales: como /temp/, /old/, /backup/.
  • Checkbot (extensión del navegador): detecta automáticamente enlaces rotos, contenido hackeado y títulos duplicados.

    Revisión masiva de contenido duplicado/plagiado

    • Siteliner (gratis): tras ingresar el dominio, genera un informe que marca páginas con alto contenido duplicado interno (como descripciones repetidas en páginas de producto).
    • Copyscape Premium: de pago pero muy preciso, verifica si tus páginas han sido plagiadas por sitios externos (o si tú has copiado contenido de otros).

    Escaneo de las tres “zonas problemáticas” principales

    Contenido generado por usuarios (UGC):

    1. Sección de comentarios: usa site:tudominio.com inurl:comments para buscar comentarios spam.
    2. Perfiles de usuarios: como /author/john/, /user/profile/, revisa directamente para detectar contenido fraudulento.

    Rutas RSS / API:

    En sitios WordPress, revisa si /feed/ o /wp-json/ han sido inyectados con spam.

    Funcionalidades de paginación y filtrado:

    Como /category/news/page/99/, las páginas finales pueden estar vacías o con contenido duplicado.

    Análisis de logs del servidor para detectar anomalías

    Usa el comando grep o Excel para filtrar logs de los últimos 30 días:

    • Páginas desconocidas con alta frecuencia de visitas (como /random-page.html).
    • Robots de motores de búsqueda con frecuencia de rastreo anormal (los hackers suelen hacerse pasar por Googlebot).

    Consejos clave

    • Cuidado con páginas con parámetros dinámicos: como /product?id=xxx, revisa si hay muchos parámetros inválidos que generan contenido duplicado.
    • Características de páginas hackeadas: títulos con palabras relacionadas con apuestas o contenido sexual; páginas con texto oculto o código de redirección.
    • Si encuentras muchas páginas problemáticas, envía una solicitud de “eliminación de snapshot” en Google Search Console para minimizar daños.

    Tratamiento de contenido antiguo, páginas de prueba y otras fuentes ocultas de spam

    Puedes pensar que ya “limpiaste” los artículos viejos o páginas de prueba, pero Google puede seguir viéndolos como “contenido basura”.

    Estas páginas no se mantienen, pueden haber sido hackeadas con enlaces ocultos o contener información desactualizada que confunde a los usuarios, bajando la puntuación general del sitio.

    Contenido expirado: elimina o marca páginas “sin valor”

    • Páginas de productos/blogs viejos: usa herramientas (como Screaming Frog) para filtrar páginas sin actualización en un año, elimínalas o añade etiqueta noindex.
    • Páginas de promociones expiradas: revisa directorios /promo/ y /sale/, redirige con 301 a productos similares si los productos ya no están disponibles.
    • Páginas de agregación de contenido duplicado: como archivos por fecha (/2020/), si no tienen tráfico, ponles noindex.

    Páginas de prueba dejadas por desarrollo

    • Escanea directorios temporales: busca /test/, /demo/, /temp/ y verifica si están indexados (usa site:tudominio.com inurl:test).
    • Limpia páginas de funciones obsoletas: como páginas de prueba para reserva (/booking-test/), elimínalas completamente y envía como enlaces muertos.

    Páginas hackeadas con parámetros basura

    Revisa URLs con parámetros extraños:

    • Busca en Google con site:tudominio.com intext:apuestas|vientres|factura para localizar páginas comprometidas.
    • Analiza logs para URLs con parámetros sospechosos como ?ref=spam, elimínalas y bloquea esas reglas de parámetros.

    Corrige vulnerabilidades: cambia la contraseña de la base de datos, actualiza plugins/temas a la versión más reciente.

    Contenido de usuarios de baja calidad (UGC)

    • Limpieza masiva de perfiles de usuarios: en WordPress revisa páginas /author/nombre_usuario/ y elimina cuentas sin publicaciones o información.
    • Bloquea rutas de comentarios spam: añade Disallow: /*?replytocom= en robots.txt para evitar indexación de paginación de comentarios.

    Consejos clave

    • Prioriza páginas ya indexadas por Google: valida con site:tudominio.com + nombre_directorio, por ejemplo site:tudominio.com /test/.
    • No te bases solo en borrar, también envía actualizaciones: después de limpiar, usa la herramienta de eliminación de URLs en Google Search Console para acelerar la actualización del índice.

    Ten en cuenta que la revisión manual de Google suele tardar de 1 a 3 semanas. Durante este tiempo, mantén el contenido de tu sitio actualizado para evitar que el algoritmo se active nuevamente.