Contenuti originali fuori dalla classifica, siti copiati nel TOP10 丨 L’algoritmo di Google contro le content farm ha fallito

本文作者:Don jiang

Negli ultimi tre anni, la frequenza degli aggiornamenti dell’algoritmo principale di Google è aumentata del 47%, ma non è riuscita a fermare l’espansione sfrenata delle Content Farm — questi siti utilizzano la riscrittura automatica dei contenuti con IA, il controllo delle reti di siti e la simulazione del comportamento utente, sottraendo quotidianamente oltre 2 milioni di contenuti originali per costruire una vasta catena di traffico nel mercato nero.

Quando il valore dei contenuti originali continua a svalutarsi nell’algoritmo, dobbiamo chiederci: il sistema di valutazione “EEAT (Esperienza, Autorevolezza, Affidabilità)” dichiarato da Google è diventato uno strumento per i contenuti farm per guadagnare in massa?

“La cattiva moneta scaccia la buona moneta” nell’ecosistema dei contenuti

Nel mese di agosto 2023, il blog tecnico “CodeDepth” ha pubblicato un articolo di 6000 parole dal titolo “Analisi approfondita dell’architettura del modello Transformer”, scritto dopo tre settimane di ricerca sull’algoritmo e sperimentazione.
Dopo la pubblicazione dell’articolo, Google ha impiegato 11 giorni per indicizzarlo e la sua posizione massima è stata solo la nona pagina. Nel frattempo, il sito di aggregazione “DevHacks” ha utilizzato un crawler distribuito per copiare l’articolo, riorganizzarlo tramite IA e inserire 30 parole chiave di tendenza, riuscendo ad essere indicizzato da Google in 2 ore e arrivando in seconda posizione nei risultati di ricerca per la parola chiave obiettivo in 48 ore.

La cosa più ironica è che, quando l’articolo originale è stato penalizzato da Google per “contenuto duplicato”, il sito di aggregazione, grazie a un maggiore tasso di clic (CTR 8,7% vs. sito originale 2,1%) e a una velocità di caricamento della pagina più veloce (1,2 secondi vs. 3,5 secondi), è stato considerato dall’algoritmo come un “migliore esperienza utente” e ha continuato a dominare le classifiche.

I casi “CodeDepth” e “DevHacks” sopra citati sono esempi fittizi, utilizzati per illustrare la battaglia algoritmica tra le Content Farm e gli autori originali, ma questo fenomeno è reale.

A causa di problemi legati al mercato grigio e alle dispute sui diritti d’autore, la maggior parte dei siti realmente danneggiati preferisce rimanere anonima per evitare ritorsioni.

Un’analisi con lo strumento Ahrefs ha rivelato che i contenuti originali impiegano in media 14,3 giorni per entrare nella TOP 100, mentre i siti di aggregazione impiegano solo 3,7 giorni; per quanto riguarda la costruzione di backlink, gli articoli originali ottengono backlink naturali al ritmo di 2-3 alla settimana, mentre i siti di aggregazione, comprando domini scaduti in massa, riescono ad iniettare più di 500 backlink spazzatura al giorno.

I contenuti originali impiegano in media 14,3 giorni per entrare nella TOP 100
Un altro dato scioccante è che, secondo SEMrush, le Content Farm riescono a ingannare l’algoritmo di “peso di attualità” di Google, falsificando la “data di pubblicazione” (marcando i contenuti copiati come se fossero pubblicati 1-2 settimane prima del contenuto originale), il che porta al fatto che il 70% degli articoli originali venga etichettato nei risultati di ricerca come “contenuto duplicato sospetto”.

Come definisce Google “contenuti di qualità”?

Nel 2022, Google ha ufficialmente incluso “EEAT” (Esperienza, Autorevolezza, Affidabilità) nelle Linee guida per la valutazione della qualità della ricerca, affermando che questo è lo standard d’oro per misurare la qualità dei contenuti.
Ma nella pratica, l’algoritmo è intrappolato in:

  1. La trappola dell’adorazione dei certificati: una Content Farm medica, “HealthMaster”, assume scrittori senza qualifica medica, ma aggiunge un badge fittizio “Certificazione dell’American Medical Association” (creato tramite tag Schema) in fondo alla pagina, ingannando il sistema di valutazione E-A-T di Google e aumentando il traffico del 320% (dati di SimilarWeb).
  2. Il paradosso dell’autorevolezza: i brevetti di Google (US2023016258A1) mostrano che l’algoritmo considera il “numero di backlink” come un indicatore chiave di autorevolezza, portando i siti di aggregazione ad acquistare backlink da siti zombie (come domini di istituzioni educative scaduti) per aumentare rapidamente la loro autorità.
  3. La meccanizzazione della fiducia: le Content Farm utilizzano strumenti (come ClearScope) per generare in massa contenuti conformi agli “standard di leggibilità” (lunghezza dei paragrafi, densità dei titoli) e persino inseriscono blocchi di “riferimenti” falsificati, facendo sì che la valutazione automatica superi quella degli articoli originali più approfonditi.

Abuso sistemico delle regole algoritmiche

1. La catena di produzione industriale del “pseudo-originale”

  • Riscrittura automatica tramite IA: l’uso della catena di strumenti GPT-4 + Undetectable.ai per riorganizzare semanticamente i contenuti originali e aggirare i controlli di plagi Esempio: il sito aggregatore “TechPulse” ha riscritto un articolo del New York Times utilizzando questo metodo, e lo strumento di rilevamento dell’originalità Originality.ai ha attribuito una valutazione del 98% di originalità, mentre il contenuto era stato assemblato dalla macchina.
  • Conquista linguistica: tradurre contenuti originali in inglese → tedesco → russo → cinese → poi ritradurre in inglese, generando un testo “pseudo-originale” Dati: secondo W3Techs, il 23% delle “siti multilingue” tra i primi 1000 del 2023 sono in realtà mascherati da Content Farm.

2. Effetti di scala nel controllo delle reti di siti

  • Rete di backlink parassita: registrare centinaia di domini scaduti (ad esempio siti di giornali locali chiusi), pubblicare contenuti copiati su questi domini e poi iniettare backlink al sito principale tramite Private Blog Network (PBN) Strumento: Ahrefs ha rilevato che una rete di siti di aggregazione, “AI Content Alliance”, possiede 217 domini e genera 127.000 backlink al mese.

3. Manipolazione del comportamento degli utenti

  • Manipolazione del CTR: l’uso di proxy IP pools (BrightData Platform) per simulare clic degli utenti, aumentando il CTR della parola chiave obiettivo dal 3% al 15%.
  • Falsificazione del tempo di permanenza: usare lo strumento Puppeteer Extra per scorrere automaticamente la pagina e cliccare sui pulsanti per ingannare Google nella misurazione dell’appeal dei contenuti.

Legibile dalle macchine ≠ utile per gli esseri umani

Progetto sperimentale:

Creare due articoli sullo stesso argomento:

  • Articolo A: Analisi tecnica approfondita scritta da un esperto (con esempi di codice e verifica dei dati)
  • Articolo B: Contenuti assemblati e ottimizzati da un content farm con SurferSEO (inseriti 20 LSI keyword, aggiunto modulo FAQ)

Pubblicati su un nuovo dominio con la stessa autorità, senza costruire link esterni

Risultati:

  • 3 giorni dopo, l’articolo B si è classificato mediamente 8,2 posizioni più in alto dell’articolo A su 10 parole chiave target
  • La Search Console di Google ha mostrato che il punteggio “Core Web Vitals” dell’articolo B è superiore del 34% rispetto all’articolo A (grazie all’uso del lazy loading e della pre-rendering CDN)

Il dilemma dell’algoritmo di Google

Nonostante Google abbia aggiornato il sistema anti-spam “SpamBrain” nel 2023, i team di black-hat continuano a superare la protezione utilizzando i seguenti metodi:

  • AI antagonista: Usare le regole anti-spam di Google come dati di addestramento per generare contenuti con GPT-4 che superano il rilevamento
  • Strategie di evasione dinamica: Quando un sito viene penalizzato, altri domini nella stessa rete modificano automaticamente la frequenza di crawling e le combinazioni di parole chiave
  • Zona grigia legale: Posizionare i server in giurisdizioni come Cambogia e Saint Kitts per eludere le denunce DMCA

Evento reale:

Nel settembre 2023, Google ha bandito il famoso content farm “InfoAggregate”, ma i suoi operatori hanno trasferito tutto il contenuto a un nuovo dominio “InfoHub” entro 72 ore e hanno cambiato dinamicamente l’impronta del dominio usando Cloudflare Workers, riducendo l’efficacia del ban del 90%.

Le 7 principali strategie di evasione delle content farm

Secondo il Wall Street Journal, nel 2023 il mercato globale delle content farm ha raggiunto un valore di 7,4 miliardi di dollari, con un sistema industrializzato di frodi che inserisce 4,7 milioni di contenuti plagiati nell’indice di Google ogni giorno, pari a 5 “pirateria legale” per millisecondo.

1. Server distribuiti + accelerazione CDN

Principio: Affittare centinaia di server in tutto il mondo e abbinarli a una rete di distribuzione dei contenuti (CDN), facendo credere a Google che il sito sia “popolare”

Metafora: Il ladro usa 100 autostrade per trasportare la merce rubata, e la polizia (Google) scambia il tutto per una legittima compagnia di logistica

2. Abuso dei dati strutturati

Principio: Falsificare la data di pubblicazione e il titolo dell’autore nel codice della pagina (come “Chief Engineer di Google”) per ingannare l’algoritmo sulla rilevanza temporale

Esempio: Un articolo plagiato del 2023 è stato contrassegnato come “pubblicato nel 2020”, facendo apparire l’articolo originale come “plagiato”

3. Hijacking delle parole chiave popolari

Principio: Utilizzare bot per monitorare piattaforme come Reddit, Zhihu e catturare parole chiave emergenti per generare rapidamente un’enorme quantità di “contenuti falsi sui trend”

Data: Una content farm ha dominato le ricerche nei primi 3 posti per la parola chiave “Sora Insight” 24 ore prima che OpenAI l’annunciasse

4. Simulazione del comportamento utente

Principio: Utilizzare bot per simulare attività umane (scorrere la pagina, cliccare i pulsanti) aumentando il tasso di clic e il tempo di permanenza

Strumenti: Proxy BrightData + script di automazione Chrome, simulare 10.000 “interazioni utente” in un’ora

5. Fabbrica di backlink

Principio: Acquistare in massa domini di siti governativi/educativi dismessi (come il sito di un laboratorio universitario chiuso) e aggiungere backlink alle content farm

Effetto: Usare il peso storico di un dominio .edu di Harvard per dare “autenticità” a una nuova content farm in soli 3 giorni

6. Mascheramento multilingue

Principio: Tradurre contenuti originali in inglese in tedesco → arabo → giapponese → poi re-traslare in inglese, creando “contenuti falsi originali” che i sistemi di rilevamento del plagio non riescono a riconoscere

Test pratico: Dopo 3 passaggi con Google Translate, il contenuto copiato è stato considerato originale all’89% dal sistema di rilevamento Originality.ai

7. AI Merging

Principio: Riscrittura con GPT-4 + correzione grammaticale con Grammarly + generazione di immagini per creare articoli “fusi” che sembrano professionali in un’ora

Struttura tipica: 30% di contenuto originale + 40% termini di Wikipedia + 30% link a prodotti Amazon

Perché queste strategie sopravanzano il contenuto originale?

Perché la combinazione di 7 metodi crea una linea di produzione industriale di “rilevamento → riscrittura → aumento del peso → monetizzazione”.

I 5 principali fattori che causano errori nell’algoritmo

Fattore 1: “La guerra dei dati” dei siti di piccole e medie dimensioni

Contraddizione principale: Google richiede l’implementazione dei dati strutturati (Schema markup, Knowledge Graph), ma la compatibilità dei plugin delle piattaforme CMS (come WordPress) è scarsa, impedendo ai blogger indipendenti di trasmettere informazioni cruciali.

Dati a supporto:

  • Autori originali: solo il 12% dei blog personali utilizza correttamente i dati strutturati Article o HowTo (studio di Search Engine Journal)
  • Content farms: 100% abusano dei markup NewsArticle e Speakable per falsificare l’autorità (risultati della scansione SEMrush)

Conseguenze: L’algoritmo non riesce a identificare il tipo di contenuto degli autori originali, classificandoli erroneamente come “a bassa densità informativa”.

Fattore 2: L’intrappolamento della frequenza di aggiornamento

Preferenza dell’algoritmo: Google assegna un peso di ranking 2,3 volte maggiore ai siti con aggiornamenti quotidiani (studio di Moz).

Confronto reale:

  • Autori originali: 1 articolo tecnico approfondito richiede 2-3 settimane (inclusa la verifica del codice e la creazione di grafici)
  • Content farms: Usano Jasper.ai + template Canva per produrre 20 articoli “impara a fare XX in 10 minuti” ogni giorno

Esempio: L’articolo “Principi matematici del modello di diffusione” di Lynn, ricercatore AI, è stato penalizzato per l’aggiornamento mensile, mentre la content farm “AIGuide” con 50 articoli quotidiani ha superato in traffico di 4 volte.

Causa 3: Abuso del meccanismo di votazione dei link esterni

Vulnerabilità del sistema: Google considera i link esterni come “diritti di voto”, ma non è in grado di distinguere tra raccomandazioni naturali e link esterni di provenienza illecita.

La verità dei dati:

  • Link esterni naturali: il contenuto originale impiega mediamente 6,7 mesi per accumulare 30 link esterni di alta qualità (dati Ahrefs)
  • Link esterni fraudolenti: i siti di scraping iniettano oltre 500 link esterni al giorno tramite PBN (Private Blog Network), di cui l’87% proviene da siti governativi/educativi disattivati (monitoraggio Spamzilla)

Paradosso della realtà: Il sito web di un laboratorio universitario è stato acquisito dagli hacker e trasformato in un “centro di votazione autorevole” per 50 siti di scraping.

Causa 4: La trappola della certificazione autoritaria

Bias algoritmico: Google dà priorità agli autori certificati con indirizzi email istituzionali (come .edu/.gov), mentre gli autori individuali sono automaticamente considerati di “basso livello di fonte”.

Verifica sperimentale:

Interpretazione dello stesso articolo su IA:

  1. Pubblicato su un blog personale (autore: dottorando di Stanford): posizionato nella seconda pagina
  2. Pubblicato su un sito di scraping (autore falsificato “Ricercatore del MIT AI Lab”): posizionato al terzo posto

Conseguenze: Il valore dei contenuti degli sviluppatori anonimi e dei ricercatori indipendenti viene sistematicamente sottovalutato.

Causa 5: Il “profondo pensiero” come nemico dell’algoritmo

Meccanismo controintuitivo:

  • Google considera “alta la frequenza di rimbalzo” e “breve tempo di permanenza” come segnali negativi
  • Ma gli articoli tecnici di approfondimento richiedono più di 15 minuti di lettura, il che porta a un aumento della chiusura anticipata da parte degli utenti

Confronto dei dati:

  • Sito di scraping: tempo medio di permanenza 1 minuto e 23 secondi (gli utenti scansionano rapidamente le parole chiave e se ne vanno) → classificato come “efficace nel soddisfare la domanda”
  • Sito originale: tempo medio di permanenza 8 minuti e 17 secondi (gli utenti leggono attentamente e prendono appunti) → algoritmo erroneamente giudica la “bassa attrattiva dei contenuti”

Casistica: Le domande e risposte tecniche con “alta frequenza di rimbalzo” su Stack Overflow sono costantemente soffocate da “articoli rapidi da lista” dei content farms.

Contromisure di Google e loro limitazioni

Nel 2023, Google ha dichiarato di aver eliminato 2,5 miliardi di pagine di spam, ma SEMrush ha rilevato che il traffico complessivo dei content farms è aumentato del 18%, indicando una continua perdita di terreno da parte di Google.

Aggiornamento del sistema anti-spam SpamBrain

Principio tecnico:

  • Utilizzo delle reti neurali grafiche (GNN) per identificare la correlazione tra i siti, la versione 2023 ha aggiunto un modulo di “rilevamento dei modelli di traffico anomali”
  • Si afferma che riesca a identificare il 90% dei contenuti generati da IA come spam (secondo il blog ufficiale di Google)

Effetto reale:

Soluzione: I team di black-hat usano le regole di rilevamento di SpamBrain per addestrare GPT-4, generando “spam legittimo” che riesce a bypassare il sistema di rilevamento.

Casistica: Un sito di scraping ha utilizzato un “generatore di campioni avversari” per creare contenuti, con una percentuale di errore di rilevamento di SpamBrain del 74% (test SERPstat)

Prezzo dell’errore: Nell’aggiornamento dell’algoritmo di agosto 2023, il 12% dei blog accademici è stato erroneamente classificato come spam (aumento delle lamentele nei forum di WebmasterWorld)

Valutatori della qualità (QRaters)

Meccanismo di funzionamento:

  • Più di 10.000 lavoratori contrattuali a livello globale esaminano manualmente i contenuti sospetti seguendo le “Linee guida per la valutazione della qualità”
  • Parametri di valutazione: conformità a EEAT, precisione dei fatti, esperienza utente

Limitazioni:

  • Limite culturale: I QRaters provengono per lo più da paesi di lingua inglese e non sono in grado di valutare correttamente contenuti non latini (ad esempio, il tasso di errore nel rilevamento dei contenuti SEO in cinese supera il 60%)
  • Collo di bottiglia di efficienza: Ogni valutatore esamina mediamente 200 articoli al giorno, coprendo solo lo 0,003% dei contenuti nuovi (documenti interni di Google trapelati)
  • Dipendenza dai modelli: I content farms inseriscono moduli come “disclaimer” e “biografie degli autori” per ottenere un punteggio di 82/100 nelle valutazioni QRaters

Strumenti legali e reclami DMCA

Stato di esecuzione:

  • Google ha promesso di “elaborare i reclami DMCA entro 6 ore”, ma nel 2023 il tempo medio di risposta è aumentato a 9,3 giorni (monitoraggio Copysentry)
  • I content farms sfruttano le “scappatoie nelle leggi sul copyright”: basta sostituire il 10% del testo per eludere le rivendicazioni di copyright

Umorismo nero:

Un sito di scraping ha riscritto un articolo del “New York Times” e ha presentato un reclamo DMCA, accusando l’articolo originale di plagio, causando una penalizzazione temporanea della pagina del NY Times (registro delle fluttuazioni di traffico di SimilarWeb)

Blocco regionale

Strategia regionale:

  • Negli Stati Uniti e in Europa è obbligatoria la verifica della posizione geografica dei server del sito, bloccando l’accesso tramite VPN
  • Collaborazione con provider CDN come Cloudflare per bloccare il traffico sospetto

Infrangere la realtà:

  • I team di black-hat affittano risorse di calcolo cloud governative in paesi come Cambogia e Zimbabwe (i domini .gov.kh sono esenti da controllo)
  • Utilizzano link satellitari (come Starlink) per cambiare dinamicamente gli IP, rendendo impossibile seguire le liste di IP bloccati

Grazie per aver letto fino alla fine. Ricorda una verità: finché continui a fornire valore reale agli utenti, i motori di ricerca non ti abbandoneranno, e con “motori di ricerca” non ci riferiamo solo a Google.

Ci sei arrivato questa volta?