微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Che cos’è l’NLP nella SEO丨Come Google SEO utilizza l’NLP

本文作者:Don jiang

Nella SEO, l’NLP (elaborazione del linguaggio naturale) aiuta la ricerca ad abbinare i contenuti in modo più preciso analizzando la semantica e l’intento dell’utente. Secondo una ricerca di Moz del 2024, il 78% delle pagine con ranking elevato applica questa tecnologia;

Nell’algoritmo core di Google, BERT, l’NLP rappresenta oltre il 70% dell’elaborazione, migliorando la professionalità e l’affidabilità dei contenuti, in linea con le linee guida EEAT.

Spiegherò nel dettaglio come Google usa l’NLP per rendere i risultati di ricerca più “capaci di capirti”.

Che cos'è l'NLP nella SEO

Che cos’è l’NLP

L’NLP (elaborazione del linguaggio naturale, Natural Language Processing) è una tecnologia che permette ai computer di comprendere, analizzare e generare il linguaggio umano.

Ogni giorno nel mondo vengono effettuate oltre 8,5 miliardi di ricerche (dati pubblici Google 2024), e circa il 60% delle query contiene semantiche implicite o formulazioni ambigue (ad esempio “Apple” può indicare il frutto, il telefono o un album musicale).

I motori di ricerca tradizionali sanno solo “abbinare parole chiave”, mentre l’NLP può scomporre un testo disordinato in unità semantiche (ad esempio scomporre “test impermeabilità iPhone 15 modello 2025” in tre entità: “modello 2025”, “iPhone 15” e “test impermeabilità”), per poi costruire una rete semantica tramite le relazioni contestuali (come il rapporto tra “impermeabilità” e “funzione dello smartphone”), permettendo infine alla macchina di “capire” la vera intenzione dietro il testo.

L’evoluzione da “corrispondenza di parole chiave” a “comprensione semantica”

Per capire come l’NLP permetta a Google di “leggere” davvero il testo, bisogna tornare all’“infanzia” dei motori di ricerca: dagli anni ’90 ai primi anni 2000.

All’epoca, la tecnologia di ricerca era primitiva come un “dizionario di parole”: se l’utente digitava “caffè”, il motore estraeva semplicemente tutte le pagine che contenevano la parola “caffè”.

Alcuni ripetevano intenzionalmente “dimagrimento”, “dimagrimento”, “dimagrimento” nella pagina solo per farsi trovare da chi cercava “dimagrimento”.

Il meccanico “contatore di parole” (anni ’90 – primi anni 2000)

Gli early search engine (come AltaVista nel 1995 e Yahoo nel 1998) usavano come algoritmo principale il TF-IDF (frequenza del termine – frequenza inversa del documento), che in sostanza significava “contare quante volte una parola compare in una pagina: più compare, più la pagina è rilevante”.

Ad esempio, se un utente cercava “Java”, il sistema mostrava per prime pagine con alta frequenza di parole come “programmazione Java” o “tutorial Java”; ma se incontrava una pagina su “caffè Java” (una varietà di caffè), poteva comunque classificarla erroneamente come rilevante solo perché “Java” compariva molte volte.

Nel 2003, uno studio dell’Università della California, Berkeley, analizzò i risultati dei principali motori di ricerca dell’epoca: quando gli utenti cercavano “Apple”, tra i primi 20 risultati il 45% riguardava il frutto, il 30% i prodotti Apple e il restante 25% contenuti non pertinenti come “ricetta della torta di mele” o “coltivazione del melo”. Gli utenti dovevano filtrare manualmente i risultati e, in media, cliccavano 3,2 link prima di trovare ciò che cercavano (dati Forrester 2003).

Alcuni siti iniziarono a “sfruttare le falle”: ad esempio, quando l’utente cercava “miglior laptop”, siti di bassa qualità ripetevano nella pagina parole come “migliore”, “laptop”, “consigliato”, e arrivavano persino a usare testo nascosto (font bianco su sfondo bianco) per riempire la pagina di parole chiave.

Nel 2005 Google dovette ammettere pubblicamente: “Circa il 30% delle pagine di bassa qualità entra nella top 10 grazie al keyword stuffing.” (rapporto interno del team Google Search Quality)

L’“inferenza sfumata” dei modelli statistici (metà anni 2000 – primi anni 2010)

A metà degli anni 2000, con la crescita esplosiva dei contenuti online (circa 1 miliardo di pagine web nel 2000 e 50 miliardi nel 2010), affidarsi solo al conteggio delle parole chiave divenne completamente inefficace.

I motori di ricerca iniziarono a introdurre modelli statistici del linguaggio, cercando di comprendere le relazioni tra le parole tramite la “probabilità contestuale”.

Ad esempio, nel 2008 Google introdusse la tecnologia di “phrase matching”: il sistema non guardava più solo alle singole parole, ma analizzava la frequenza con cui comparivano determinate combinazioni di frasi.

Per esempio, se un utente cercava “come preparare il caffè”, il sistema privilegiava pagine che contenevano insieme parole come “preparare”, “caffè”, “acqua” e “temperatura”, invece di pagine che contenevano solo “caffè”. Questa tecnologia aumentò la pertinenza dei risultati di circa il 12% (dati dal blog tecnico di Google del 2009).

Nel 2012 Google lanciò ulteriormente il Knowledge Graph, trasformando parole isolate in una rete di “entità + relazioni”.

Per esempio, “Einstein” non era più solo una parola, ma veniva etichettato con proprietà come “fisico”, “nato a Ulma, Germania”, “ha formulato la teoria della relatività”.

Quando l’utente cercava “Einstein”, il sistema non restituiva solo pagine biografiche, ma mostrava direttamente anche anni di nascita e morte, citazioni famose e persino collegamenti alle pagine di spiegazione della “relatività”.

Dopo il lancio del Knowledge Graph, i dati ufficiali di Google mostrarono che il 40% delle esigenze di ricerca degli utenti veniva soddisfatto direttamente (senza cliccare alcun link) (presentazione ufficiale Google 2013).

Ma non bastava ancora: il Knowledge Graph dipendeva da “dati strutturati” annotati manualmente, mentre il 90% dei contenuti su Internet è costituito da “testi non strutturati” non annotati (come blog e forum). Per permettere alle macchine di comprendere questo “testo disordinato”, serviva una tecnologia ancora più potente.

Da “regolarità statistiche” a “comprensione semantica” (metà anni 2010 – oggi)

Negli anni 2010, i progressi del deep learning (soprattutto nello sviluppo delle reti neurali) hanno cambiato radicalmente l’NLP. Nel 2013 il ricercatore Google Tomas Mikolov propose il modello Word2Vec, che per la prima volta mappò le parole in uno “spazio vettoriale”: ad esempio, la differenza vettoriale tra “re” e “regina” è molto simile alla differenza tra “uomo” e “donna”, il che significa che il modello può “comprendere” le relazioni semantiche tra le parole.

Nel 2016 Google introdusse nella ricerca RankBrain (un algoritmo di ranking basato sul deep learning), capace di “imparare” automaticamente la relazione tra comportamento di ricerca degli utenti e rilevanza dei contenuti.

Ad esempio, se un utente cerca “auricolari wireless economici”, RankBrain analizza quali pagine, dopo il clic, hanno tempi di permanenza più lunghi e tassi di abbandono più bassi, deducendo così le vere relazioni tra “economici”, “wireless” e “auricolari”.

Secondo i dati pubblicati da Google nel 2017, RankBrain ha migliorato del 25% la rilevanza delle query long tail (termini di ricerca poco comuni) (come “consigli per auricolari a conduzione ossea adatti alla corsa”).

Nel 2018 Google lanciò il modello BERT (architettura Transformer bidirezionale), risolvendo definitivamente il problema dell’“ambiguità contestuale”. I modelli tradizionali potevano comprendere le frasi solo in modo “unidirezionale” (ad esempio da sinistra a destra), mentre BERT analizza contemporaneamente “ciò che viene prima e ciò che viene dopo”.

Per esempio, nelle frasi “La mela di Xiaoming è matura” e “Xiaoming ha dato un morso alla mela”, BERT può dedurre dal contesto che in entrambi i casi “mela” indica il frutto. Ma se la frase fosse “La Apple di Xiaoming ha rilasciato un nuovo sistema”, BERT riconoscerebbe immediatamente che “Apple” indica l’azienda.

L’effetto di BERT fu immediato:

I test interni di Google del 2019 mostrarono che il CTR (click-through rate) delle query complesse passò dal 18% al 25%;

Nel 2023, secondo dati pubblici del team Google Search Liaison, BERT fece aumentare l’accuratezza delle query ambigue dal 58% all’82% (ad esempio, quando l’utente cerca “Python”, il modello può capire dal contesto se si tratta del linguaggio di programmazione o del serpente, con un miglioramento di 24 punti percentuali).

Da “abbinare parole” a “capire le persone”

Guardando alla storia evolutiva dell’NLP, il punto essenziale è il passaggio del motore di ricerca da “esecuzione meccanica di istruzioni” a “comprensione dei bisogni umani”:

  • Era 1.0 (corrispondenza di parole chiave): la macchina è come un “contatore di parole”, capace solo di abbinare letteralmente;
  • Era 2.0 (modelli statistici): la macchina è come un “analista probabilistico”, che deduce l’intento tramite le probabilità contestuali;
  • Era 3.0 (deep learning): la macchina è come un “apprendista della lingua”, che può “imparare” la logica semantica dai big data.

Nel 2024, un’indagine del Pew Research Center ha mostrato che il 78% degli utenti ritiene che i risultati di ricerca oggi “corrispondano meglio ai bisogni reali”, mentre nel 2010 questa percentuale era solo del 41%.

Il Chief Scientist di Google, Jeff Dean, ha detto: “L’obiettivo dell’NLP non è permettere alle macchine di ‘leggere il testo’, ma di ‘capire le persone’.”

Il “lavoro fondamentale” dell’NLP

Per permettere a una macchina di “capire” un testo, l’NLP deve elaborare passo dopo passo i “frammenti di informazione” presenti nel linguaggio, proprio come fanno gli esseri umani quando scompongono una frase.

Quando il sistema NLP di Google (ad esempio una versione migliorata di BERT) elabora il contenuto di una pagina, segue rigorosamente quattro fasi per “decodificare” il testo: tokenizzazione → riconoscimento delle entità → correlazione semantica → correzione contestuale.

Fase 1: tokenizzazione

La tokenizzazione è il primo passo dell’NLP. In parole semplici, consiste nel suddividere una sequenza continua di testo in “unità semantiche” indipendenti (chiamate “token”).

Il cinese non ha spazi naturali tra le parole (a differenza dell’inglese, dove “apple pie” ha uno spazio), perciò la tokenizzazione è una delle difficoltà centrali dell’NLP cinese.

Principio tecnico:

Il sistema di tokenizzazione di Google adotta un modello ibrido “regole + deep learning”:

  • Base di regole: contiene milioni di combinazioni comuni del cinese (come “preparare il caffè”, “bollitore per pour-over”, “test di impermeabilità”), che vengono abbinate con priorità;
  • Modello di deep learning: una versione fine-tuned di BERT che predice dinamicamente le parole non presenti nel vocabolario (ad esempio nuovi termini come “dopamine dressing”).

Caso pratico:

Prendendo come esempio il contenuto “Come preparare una tazza di caffè pour-over ricco e aromatico?”, il sistema di tokenizzazione deve determinare il modo corretto di segmentarlo. Possibili segmentazioni candidate:

  • Segmentazione errata: “come/preparareu/na tazza/aromatico/pour-over caffè” (rompe combinazioni sensate come “una tazza”, “aromatico”, “caffè pour-over”);
  • Segmentazione corretta: “come/preparare/una tazza/aromatico/caffè pour-over” (conforme all’uso naturale del cinese).

Dati di supporto:

I test interni di Google del 2023 mostrano che il suo sistema di tokenizzazione raggiunge un’accuratezza del 97,3% sulle comuni pagine web in cinese, ma solo dell’89% per i termini rari nei settori YMYL professionali (come diritto e medicina), a causa del minor numero di regole disponibili per le collocazioni terminologiche specialistiche.

Per risolvere questo problema, Google addestra ulteriormente “modelli di tokenizzazione di dominio” per le pagine verticali (ad esempio, un modello medico memorizza la segmentazione corretta di termini come “infarto miocardico” e “arteria coronaria”).

Fase 2: riconoscimento delle entità

Dopo la tokenizzazione, l’NLP deve identificare le “entità” (Entity) nel testo, cioè le informazioni chiave come persone, oggetti, tempi, luoghi ed eventi.

Le entità sono lo “scheletro” del contenuto e aiutano la macchina a individuare rapidamente il tema della pagina.

Principio tecnico:

Google usa un modello di apprendimento multitask (Multi-Task Learning) che addestra contemporaneamente il riconoscimento delle entità, il part-of-speech tagging (ad esempio sostantivi e verbi) e l’estrazione delle relazioni.

Il modello predice per ogni token se appartiene a un’entità e ne etichetta il tipo (come “TIME”, “PRODUCT”, “PERSON”).

Esempi di tipi di entità:

Tipo Definizione Esempio (dalla pagina “Test impermeabilità iPhone 15 nel 2025”)
TIME Punto/intervallo temporale “settembre 2025”
PRODUCT Prodotto specifico “iPhone 15” “grado di impermeabilità IP68”
EVENT Evento/azione “test di impermeabilità” “rilascio”
ATTRIBUTE Attributo/caratteristica dell’entità “profondità 6 metri” “30 minuti” (parametri concreti dell’impermeabilità)

Caso pratico:

Nel processare la frase “Il test IP68 di impermeabilità dell’iPhone 15 di settembre 2025 mostra che ha resistito 30 minuti a 6 metri di profondità”, il sistema di entity recognition produrrà:

  • TIME: “settembre 2025”
  • PRODUCT: “iPhone 15”
  • ATTRIBUTE: “grado di impermeabilità IP68” “profondità 6 metri” “30 minuti”
  • EVENT: “test di impermeabilità”

Dati di supporto:

Secondo il blog tecnico di Google del 2024, il suo modello di entity recognition raggiunge un tasso di richiamo del 92% nei testi di dominio generale (cioè il rapporto tra entità correttamente riconosciute e tutte le entità reali), ma nei testi lunghi (oltre 5000 caratteri) il richiamo scende all’85%, perché la densità di entità è minore e il modello tende a perderne alcune.

Per questo Google ha introdotto una strategia di “elaborazione per segmenti”: il testo lungo viene diviso in paragrafi di circa 500 caratteri, le entità vengono riconosciute segmento per segmento e poi i risultati vengono uniti, portando il richiamo nei testi lunghi fino al 90%.

Fase 3: correlazione semantica

Dopo tokenizzazione e riconoscimento delle entità, l’NLP deve chiarire le relazioni logiche tra le parole (come “appartiene a”, “causa”, “attributo”), trasformando token dispersi in una rete semantica strutturata.

Questa fase determina se la macchina è davvero in grado di “capire” il significato reale della frase.

Principio tecnico:

Google adotta un approccio ibrido basato su modelli linguistici pre-addestrati + Knowledge Graph:

  • I modelli pre-addestrati (come BERT) apprendono dalle grandi quantità di testo le “relazioni implicite” tra le parole (ad esempio, “scarpe da corsa” e “attrezzatura sportiva” hanno una relazione gerarchica);
  • Il Knowledge Graph di Google fornisce conoscenza strutturata (ad esempio, il brand di “iPhone 15” è “Apple” e la data di lancio è “settembre 2023”), usata per verificare e completare le relazioni apprese dal modello.

Esempi di tipi di relazione:

Tipo di relazione Definizione Esempio (dalla pagina “Come scegliere scarpe da corsa”)
Relazione gerarchica A è una sottoclasse di B (o viceversa) “scarpe da corsa” → “attrezzatura sportiva” (le scarpe da corsa appartengono all’attrezzatura sportiva)
Relazione di attributo A è una caratteristica/parametro di B “intersuola ammortizzata” → “scarpe da corsa” (l’intersuola ammortizzata è un attributo delle scarpe da corsa)
Relazione causale A causa B “peso eccessivo” → “danno al ginocchio” (un peso eccessivo può causare danni al ginocchio)

Caso pratico:

Nel processare la frase “Quando scegli scarpe da corsa, l’intersuola ammortizzata è fondamentale, perché può ridurre la pressione sulle ginocchia”, il sistema di correlazione semantica stabilirà:

  • una relazione di attributo tra “scarpe da corsa” e “intersuola ammortizzata”;
  • una relazione causale tra “intersuola ammortizzata” e “ridurre la pressione sulle ginocchia”.

Dati di supporto:

I test interni di Google del 2023 mostrano che il suo modello di correlazione semantica riconosce le relazioni comuni con un’accuratezza dell’88%, ma per relazioni complesse (come la “causalità indiretta”) l’accuratezza è solo del 72%. Ad esempio, nella frase “Indossare a lungo scarpe non adatte può portare a una deformazione dell’arco plantare, che a sua volta può causare mal di schiena”, la relazione tra “scarpe non adatte” e “mal di schiena” è una causalità indiretta e il modello tende a considerarla priva di collegamento diretto. Per risolvere questo problema, Google ha introdotto la “chain-of-thought reasoning”: collegando due entità distanti tramite nodi intermedi (come “deformazione dell’arco plantare”), l’accuratezza nel riconoscimento delle relazioni complesse è salita all’85%.

Fase 4: correzione contestuale

Alcune parole, prese da sole, sono ambigue (ad esempio “Apple” può indicare il frutto o il brand), quindi è necessario correggerne il significato combinando l’intero paragrafo o persino l’intera pagina.

Questa è la fase chiave con cui l’NLP “comprende” il testo ed è anche la più dipendente dal contesto.

Principio tecnico:

Google usa un meccanismo di attenzione bidirezionale (come nel design centrale di BERT), che permette al modello di “guardare” contemporaneamente la parte iniziale e quella finale della frase, regolando dinamicamente il significato di ogni token.

Ad esempio, quando il modello elabora “La mela di Xiaoming è matura”, il significato iniziale di “mela” può essere “frutto”;

ma elaborando la frase successiva “Ha intenzione di usare Apple per rilasciare un nuovo sistema”, il modello torna al contesto precedente e si accorge che “rilasciare un nuovo sistema” non ha niente a che fare con un frutto, correggendo così il significato di “Apple” in “azienda tecnologica”.

Caso pratico:

Prendendo come esempio il contenuto “L’ultimo iPhone 15 rilasciato da Apple supporta la comunicazione satellitare, una buona notizia per gli amanti dell’outdoor”:

  • se si guarda solo la parola “Apple”, il modello potrebbe interpretarla erroneamente come “frutto”;
  • combinandola con la frase successiva “ha rilasciato iPhone 15”, il modello corregge “Apple” in “azienda tecnologica”;
  • aggiungendo il riferimento agli “amanti dell’outdoor”, conferma ulteriormente che la funzione di “comunicazione satellitare” dell’iPhone 15 è legata a scenari outdoor.

Dati di supporto:

Uno studio sul comportamento degli utenti di Google del 2024 mostra che, negli scenari di query ambigue (come la ricerca di “Python”), la pertinenza dei risultati corretti dal contesto aumenta del 37% rispetto ai risultati non corretti.

Nel trattamento delle pagine, la correzione contestuale aumenta il tasso di identificazione corretta del significato dei termini ambigui dal 62% all’89% (dati basati sui test interni di Google).

L’NLP fa risparmiare ogni giorno agli utenti il 30% del tempo di ricerca

Quando un utente effettua una ricerca, l’esperienza più immediata è: “riuscirò a trovare più in fretta ciò che voglio?”

Secondo il rapporto Microsoft 2024 sul comportamento degli utenti, con i motori di ricerca ottimizzati dall’NLP, il tempo medio per trovare l’informazione desiderata scende da 87 secondi a 59 secondi (circa il 30% in meno).

Query ambigue

Durante la ricerca, circa il 40% delle query contiene parole ambigue (come “Apple”, “Python”, “Java”). I motori di ricerca tradizionali trattano queste query come singole parole chiave, restituendo molti risultati irrilevanti.

Grazie alla disambiguazione semantica (Word Sense Disambiguation, WSD), l’NLP può stabilire il vero significato di una parola in base al contesto, filtrando direttamente i contenuti inutili.

Manifestazioni concrete:

  • Caso 1: ricerca di “Python”: l’utente potrebbe voler trovare tutorial sul linguaggio di programmazione (62%), oppure informazioni sul serpente (18%), oppure query legate al linguaggio Python (20%). Un motore tradizionale restituisce tutte le pagine contenenti “Python”, e l’utente deve filtrare manualmente 10-15 link irrilevanti nelle prime 3 pagine; con l’intervento dell’NLP, il sistema può dedurre l’intento dell’utente dal contesto del contenuto della pagina (come “funzione print()” o “tutorial sul web scraping”), mostrando con priorità i risultati di programmazione. Nei test interni di Google del 2023, la percentuale di risultati efficaci nella prima schermata per query ambigue è salita dal 38% al 72%, mentre il numero medio di clic è sceso da 2,3 a 1,1.
  • Caso 2: ricerca di “Java”: l’utente potrebbe cercare il linguaggio di programmazione (55%), una guida turistica all’isola indonesiana di Giava (25%) o una varietà di caffè (20%). Analizzando le parole correlate presenti nelle pagine (ad esempio “JVM” e “framework Spring” per la programmazione, “Tanah Lot” e “vulcano” per il turismo), l’NLP può individuare rapidamente il bisogno reale dell’utente. Un’indagine del Pew Research del 2024 mostra che il tempo necessario per completare una ricerca ambigua è sceso da 112 secondi a 68 secondi (40 secondi in meno).

Supporto tecnico:

La capacità di disambiguazione dell’NLP si basa sulla doppia verifica di “vettori contestuali” e “Knowledge Graph”.

Ad esempio, quando l’utente cerca “Java”, il modello estrae altre parole chiave presenti nella pagina (come “caffè”, “programmazione”, “isola”) e le mappa sulle entità del Knowledge Graph (“Java (linguaggio di programmazione)”, “Java (isola)”), poi determina l’entità più pertinente tramite il calcolo della similarità vettoriale (come la cosine similarity) e restituisce infine il risultato corretto.

Esigenze implicite

Le parole di ricerca dell’utente esprimono spesso solo il 10%-20% del bisogno centrale; il restante 80%-90% è implicito (ad esempio “prezzo”, “difficoltà”, “scenario d’uso”).

Attraverso la Semantic Expansion, l’NLP può estendere i bisogni correlati a partire dai termini centrali, coprendo attivamente anche le intenzioni che l’utente non ha espresso esplicitamente.

Manifestazioni concrete:

  • Caso 1: ricerca di “ricette per dimagrire”: l’utente potrebbe sottintendere bisogni come “ipocalorico”, “facile da fare”, “adatto a chi lavora in ufficio”, “senza zucchero”. Un motore tradizionale abbina solo pagine contenenti “dimagrire” e “ricette”, e potrebbe mostrare “diete estreme” o “ricette di pasticceria complesse”; con l’NLP, il sistema analizza le parole comunemente associate a “dimagrire” (come “calorie”, “veloce”, “casalingo”) e mostra prima pagine come “colazione ipocalorica in 15 minuti” o “ricette da portare al lavoro”. Un A/B test di Google del 2022 mostra che nei risultati che coprono i bisogni impliciti, il tempo di permanenza degli utenti è passato da 45 a 78 secondi (+73%), perché non serve una seconda ricerca del tipo “ricette dimagranti ipocaloriche”.
  • Caso 2: ricerca di “cosa indossare quando piove”: l’utente può implicare bisogni come “impermeabile”, “antiscivolo”, “leggero”, “caldo”. Un motore tradizionale restituisce risultati generici come “impermeabile” o “ombrello”; l’NLP invece può riconoscere gli attributi dello scenario “giornata di pioggia” (umidità, rischio di scivolare) e collegarli a caratteristiche come “materiale impermeabile”, “suola antiscivolo”, “portabilità pieghevole”, raccomandando così prodotti concreti come “giacca shell impermeabile” o “stivali antiscivolo”. Secondo un’indagine eMarketer del 2024, nella ricerca e-commerce che copre i bisogni impliciti, il tasso di conversione passa dal 3,2% al 5,8% (gli utenti sono più propensi a cliccare per acquistare).

Supporto tecnico:

L’espansione semantica dipende dall’addestramento con “spazio vettoriale delle parole” e “dati sul comportamento degli utenti”.

Ad esempio, il modello BERT di Google mappa “ricette per dimagrire” in uno spazio vettoriale ad alta dimensionalità, in cui parole come “ipocalorico” e “facile da fare” sono molto vicine dal punto di vista vettoriale;

allo stesso tempo, il sistema analizza i dati storici di ricerca (ad esempio, gli utenti che cercano “ricette per dimagrire” cliccano spesso su “colazione ipocalorica”), verificando ulteriormente la pertinenza di questi bisogni impliciti e generando infine un lessico di termini espansi.

Adattamento cross-scenario

Lo scenario in cui l’utente effettua la ricerca (tempo, luogo, dispositivo) influenza direttamente il bisogno. Grazie alla Context Awareness, l’NLP può adattare dinamicamente la comprensione della query e fornire risultati più adatti al contesto attuale.

Manifestazioni concrete:

  • Scenario temporale: se in inverno si cerca “giacca”, l’NLP darà priorità a parole chiave come “imbottita”, “calda”, “piumino”; se si cerca “giacca” in estate, mostrerà prima capi “anti-UV”, “leggeri”, “traspiranti”. Secondo i dati di ricerca stagionale di Google del 2023, dopo l’adattamento al contesto, la soddisfazione degli utenti per i risultati passa dal 68% all’85% (perché i risultati rispondono meglio ai bisogni stagionali).
  • Scenario geografico: se a Shanghai si cerca “hotpot”, l’NLP raccomanda locali popolari della zona; se a Chengdu si cerca “hotpot”, dà priorità a hotpot autentici del Sichuan. Nei test di integrazione tra Google Maps e Search del 2024, dopo l’adattamento al contesto locale, la probabilità che gli utenti clicchino su “attività nelle vicinanze” passa dal 22% al 47% (perché i risultati sono più pertinenti).
  • Scenario del dispositivo: se si cerca da smartphone “benzinaio vicino”, l’NLP privilegia risultati con “navigazione”, “prezzo del carburante in tempo reale” e “il più vicino” (adatti a decisioni rapide in mobilità); da computer, invece, può mostrare “elenco dei distributori”, “recensioni degli utenti”, “promozioni” (adatti a una consultazione più approfondita). Uno studio Microsoft del 2024 su più dispositivi mostra che dopo l’adattamento al dispositivo, il tempo necessario agli utenti per completare il compito si riduce del 42% (da 90 a 52 secondi su smartphone, da 120 a 69 secondi su computer).

Supporto tecnico:

La consapevolezza del contesto dipende da “estrazione di metadati” e “integrazione di dati in tempo reale”.

Ad esempio, il sistema estrae tempo (tramite l’orario del dispositivo), luogo (tramite IP o GPS) e tipo di dispositivo (smartphone/computer) dalla query, e regola il peso semantico combinandoli con dati in tempo reale (come meteo, traffico e stato di apertura dei negozi).

Ad esempio, se si cerca “giacca” in un giorno di pioggia, il sistema recupera in tempo reale la probabilità di precipitazioni nella zona e rafforza il peso dell’attributo “impermeabile”.

Come l’NLP fa risparmiare tempo

Tipo di scenario Ricerca tradizionale (senza NLP) Ricerca ottimizzata con NLP Tempo risparmiato Fonte dei dati
Query ambigua (Python) 10 risultati nella prima schermata, 5 irrilevanti 8 risultati nella prima schermata, 7 pertinenti 40 secondi Test interni Google 2023
Bisogno implicito (ricette per dimagrire) Serve una seconda ricerca con “ipocalorico” La prima schermata mostra direttamente ricette ipocaloriche 25 secondi Indagine Pew Research 2024
Scenario cross-context (cercare una giacca in estate) I risultati includono modelli invernali, serve filtrare manualmente La prima schermata mostra solo modelli estivi anti-UV 30 secondi Studio Microsoft 2024 multi-scenario

Come l’NLP di Google Search “comprende” il testo di una pagina

La tecnologia NLP di Google trasforma il testo di una pagina in una “rete semantica” comprensibile alla macchina attraverso quattro passaggi: “tokenizzazione → riconoscimento delle entità → correlazione semantica → correzione contestuale”.

Ogni giorno vengono elaborati oltre 50 miliardi di parole (dati Google 2024), con un’accuratezza della tokenizzazione del 97,3% e un richiamo del riconoscimento delle entità del 92%, permettendo infine di distinguere automaticamente se “Apple” indica il frutto o il telefono, se “Python” corrisponde a un tutorial di programmazione o a un serpente. Quando gli utenti cercano contenuti pertinenti, la percentuale di risultati efficaci nella prima schermata passa dal 38% al 72% (test interni 2023).

Tokenizzazione: dividere il testo nei “blocchi minimi comprensibili alla macchina”

In parole semplici, significa scomporre una sequenza continua di testo in “unità linguistiche minime” significative (chiamate “token”).

Per lingue come l’inglese, che hanno spazi naturali, basta dividere in base agli spazi (ad esempio “coffee mug” diventa “coffee” + “mug”);

ma per lingue come cinese e giapponese, prive di spazi, un errore di segmentazione può compromettere completamente il riconoscimento delle entità e la comprensione semantica nelle fasi successive.

Base di regole + deep learning

Il sistema di tokenizzazione di Google adotta un modello ibrido “base di regole come priorità, deep learning come completamento”, con l’obiettivo centrale di segmentare il testo in modo “rapido e accurato”.

Base di regole

La base di regole è il “fondamento” del sistema di tokenizzazione di Google. Contiene modelli di collocazione frequente delle principali lingue del mondo (ad esempio in cinese “preparare il caffè”, “bollitore pour-over”, “test di impermeabilità”, e in inglese “espresso machine”, “drip coffee”). Queste collocazioni derivano da analisi statistiche del testo online: Google esegue il crawling delle pagine web e calcola la frequenza di co-occorrenza di ogni coppia di parole adiacenti (ad esempio la probabilità che dopo “preparare” venga “caffè” è del 92%, mentre quella che venga “riso” è dell’85%), formando infine un “dizionario di collocazioni” da milioni di voci.

Ad esempio, nel processare la frase cinese “Come preparare una tazza di caffè pour-over ricco e aromatico”, la base di regole darà priorità a combinazioni ad alta frequenza come “preparare/caffè” e “pour-over/caffè”, segmentando correttamente in “come/preparare/una tazza/aromatico/caffè pour-over”;

se incontra “programmazione Java”, la base di regole riconoscerà “Java” come linguaggio di programmazione e “programmazione” come azione, segmentando in “Java/programmazione” invece di “Jav/a/prog/rammazione” (segmentazione errata).

Deep learning

Sebbene efficiente, la base di regole non può coprire tutti i casi: ogni giorno su Internet compaiono molti neologismi (come “dopamine dressing”, “metaverso”) e termini specialistici (come nel diritto “responsabilità precontrattuale” o in medicina “infarto miocardico”), che non sono inclusi nella base di regole. In questi casi Google richiama un modello BERT fine-tuned per effettuare una previsione dinamica.

BERT (Transformer bidirezionale) è un modello linguistico pre-addestrato che può comprendere il significato delle parole dal contesto.

Per esempio, quando incontra “dopamine dressing”, termine assente dalla base di regole, BERT può dedurre dal contesto (come “colori vivaci”, “buon umore”, “moda”) che si tratta di un nuovo termine che descrive uno stile di abbigliamento, e segmentarlo come un’unica unità “dopamine dressing”, invece di suddividerlo in modo errato.

Confronto dei dettagli tecnici:

Tipo di tecnologia Vantaggi Limiti Scenario d’uso
Base di regole Alta velocità (risposta in millisecondi) Non copre neologismi/termini specialistici Testi generici convenzionali
Modello BERT fine-tuned Riconosce dinamicamente neologismi e termini specialistici Costo computazionale elevato (richiede GPU) Nuovi settori, testi long tail
Adattamento multilingue

Google supporta la tokenizzazione in oltre 100 lingue, ma le caratteristiche delle varie lingue differiscono molto, perciò regole e modelli devono essere adattati caso per caso.

Cinese: assenza di spazi + alta ambiguità

La difficoltà del cinese sta nell’assenza di spazi e nella polisemia. Ad esempio, la frase “乒乓球拍卖完了” può essere segmentata in due modi:

  • Corretto: “racchetta da ping-pong / è stata venduta tutta” (dove “racchetta da ping-pong” è il prodotto);
  • Errato: “ping-pong / asta / finita” (dove “asta” viene interpretato come azione).

Google risolve l’ambiguità tramite un modello di probabilità contestuale: la frequenza di co-occorrenza di “racchetta da ping-pong” come unità unica (ad esempio 90% nelle pagine e-commerce) è molto più alta rispetto alla combinazione “ping-pong + asta” (solo 5% nelle notizie sportive), quindi viene preferita la segmentazione corretta.

Arabo: scrittura da destra a sinistra + grafia legata

L’arabo si scrive da destra a sinistra e, in alcuni casi, le parole si presentano senza separazioni nette. Il sistema di tokenizzazione di Google inverte prima l’ordine di lettura in una direzione elaborabile da sinistra a destra, poi usa la base di regole per individuare i confini corretti.

Swahili: caratteristica di lingua agglutinante

Lo swahili è una lingua agglutinante, che esprime significati aggiungendo affissi alla radice (ad esempio “mtoto” significa “bambino”, “watoto” significa “bambini”). Il modello di tokenizzazione di Google riconosce i confini degli affissi, segmentando correttamente “watoto” in una struttura interpretabile come “plurale + bambino”.

I test di tokenizzazione multilingue di Google del 2023 mostrano un’accuratezza del 98% per lingue principali come inglese e spagnolo, ma solo del 92% per lingue più complesse come arabo e swahili.

Per migliorare i risultati, Google ha creato per ogni lingua un “team di esperti linguistici”, che annota manualmente oltre 100.000 frasi tipiche per addestrare modelli di tokenizzazione dedicati.

Come gli errori di tokenizzazione influenzano i risultati di ricerca

La tokenizzazione è la base di tutte le fasi successive dell’NLP. Se la segmentazione è errata, può portare al fallimento del riconoscimento delle entità, a correlazioni semantiche distorte e infine a un calo della pertinenza dei risultati di ricerca. Ecco due casi reali:

Caso 1: pagina e-commerce “Java coffee”

Il titolo di una pagina è “Java coffee: morbidezza di livello pour-over”. La tokenizzazione corretta dovrebbe essere “Java / caffè / : / livello pour-over / morbido / gusto”. Se la segmentazione fosse errata, il sistema di entity recognition potrebbe interpretare sequenze prive di significato come entità separate, impedendo a Google di collegarle al prodotto corretto “Java coffee”. Quando l’utente cerca “Java coffee”, la pagina verrebbe filtrata erroneamente.

Caso 2: pagina legale “responsabilità precontrattuale”

Un blog giuridico contiene il testo “La responsabilità precontrattuale si riferisce al danno causato a una parte dalla violazione del principio di buona fede da parte dell’altra”. La tokenizzazione corretta dovrebbe mantenere “responsabilità precontrattuale” come un unico termine giuridico. Se venisse segmentato male in più parole isolate, il sistema di entity recognition non riuscirebbe a collegarlo al concetto legale corretto, facendo retrocedere la pagina nel ranking per la query “responsabilità precontrattuale”.

Dati di supporto:

I test interni di Google mostrano che gli errori di tokenizzazione possono far scendere la pagina target di 3-5 posizioni nei risultati di ricerca (dati A/B test 2023), e ridurre del 42% la probabilità che gli utenti la clicchino (a causa della minore pertinenza del risultato).

“Estrarre” i punti chiave dal testo

Quando l’utente cerca “test impermeabilità iPhone 15 modello 2025”, Google deve capire rapidamente che il nucleo della pagina è “iPhone 15” (prodotto), “settembre 2025” (tempo), “test di impermeabilità” (evento)

Queste informazioni chiave sono chiamate “entità” (Entity).

Modello di apprendimento multitask (Multi-Task Learning)

Il sistema di entity recognition di Google si basa su un modello di apprendimento multitask (Multi-Task Learning), che addestra contemporaneamente tre compiti: “riconoscimento delle entità”, “part-of-speech tagging” e “estrazione delle relazioni”, migliorando l’efficienza tramite la condivisione dei parametri di base.

In parole semplici, il modello impara contemporaneamente:

  • quali parole sono entità (ad esempio “iPhone 15” è un prodotto);
  • quale ruolo grammaticale hanno nella frase (ad esempio “iPhone 15” è un sostantivo);
  • quali relazioni esistono tra le entità (ad esempio “iPhone 15” è prodotto da “Apple”).

Dettagli tecnici fondamentali:

  • BERT fine-tuned: partendo dal modello pre-addestrato BERT di Google, viene eseguito il fine-tuning su grandi quantità di dati annotati (come Wikipedia, notizie, pagine e-commerce) per apprendere le caratteristiche contestuali delle entità. Ad esempio, nella frase “A settembre 2025 è stato rilasciato iPhone 15”, “settembre 2025” e “iPhone 15” vengono collegati tramite i vettori contestuali di BERT, e il modello può capire che il primo è un tempo e il secondo un prodotto.
  • Classificatore del tipo di entità: nello strato di output di BERT viene aggiunta una “testa di classificazione del tipo”, che predice il tipo specifico di ogni entità (come TIME, PRODUCT, PERSON). Il classificatore si basa su oltre 50 tipi di entità predefiniti (che coprono sia il dominio generale sia quelli verticali), ad esempio:
Tipo di entità Definizione Esempio
TIME Punto/intervallo temporale “settembre 2025” “30 minuti”
PRODUCT Prodotto specifico “iPhone 15” “bollitore pour-over”
PERSON Persona (reale o fittizia) “Tim Cook” “Zhang Xiaolong”
LOCATION Luogo (concreto o astratto) “Shanghai” “GitHub”
EVENT Evento/azione “test di impermeabilità” “conferenza di lancio”
ATTRIBUTE Attributo/caratteristica dell’entità “grado di impermeabilità IP68” “profondità 6 metri”
La “precisione del riconoscimento” dal dominio generale ai verticali

Il sistema di tipi di entità di Google si divide in dominio generale (che copre i testi di uso quotidiano) e domini verticali (specifici per contenuti professionali)

Tipi di entità di dominio generale (50+):

Coprono il 90% degli scenari di ricerca degli utenti, ad esempio:

  • Tempo (TIME): date specifiche (“settembre 2025”), durate (“30 minuti”), intervalli temporali (“2020-2025”);
  • Prodotto (PRODUCT): dispositivi elettronici (“iPhone 15”), elettrodomestici (“bollitore pour-over”), beni di consumo quotidiano (“chicchi di caffè”);
  • Luogo (LOCATION): città (“Shanghai”), paesi (“Stati Uniti”), organizzazioni (“Google”).

Tipi di entità verticali (specifici di settore):

Per contenuti professionali come diritto, medicina e tecnologia, Google addestra ulteriormente tipi di entità dedicati, ad esempio:

  • Settore giuridico: aggiunge “disposizione di legge” (come “articolo 10 del Codice Civile”), “atto giuridico” (come “culpa in contrahendo”);
  • Settore medico: aggiunge “malattia” (come “infarto miocardico”), “farmaco” (come “aspirina”), “procedura chirurgica” (come “PCI”);
  • Settore tecnologico: aggiunge “algoritmo” (come “BERT”), “linguaggio di programmazione” (come “Python”), “architettura hardware” (come “ARM”).

Dati di supporto:

I test interni di Google del 2023 mostrano che l’accuratezza del riconoscimento delle entità nel dominio generale è del 92%, mentre nei domini verticali (come il diritto) l’accuratezza iniziale era solo del 78% (a causa della scarsità di termini specialistici e di dati annotati).

Addestrando separatamente un “modello di entity recognition giuridico” (basato su oltre 100.000 annotazioni di testi legali), l’accuratezza sale al 90%; il modello medico, addestrato su oltre 50.000 cartelle cliniche annotate, raggiunge l’88%.

Le “quattro fasi” dal rilevamento dei candidati alla definizione dei confini

Prendiamo come esempio l’elaborazione della frase “Il test IP68 di impermeabilità dell’iPhone 15 di settembre 2025 mostra che ha resistito 30 minuti a 6 metri di profondità”:

Fase 1: rilevamento dei candidati — trovare i possibili “semi” delle entità

Il modello scansiona prima il testo e, basandosi sulla base di regole (ad esempio “anno + mese” è un candidato temporale, “numero + nome del prodotto” è un candidato prodotto) e sulle probabilità statistiche (ad esempio la probabilità che dopo “iPhone” compaia un numero è del 90%), etichetta i possibili candidati all’entità.

  • Candidato 1: “settembre 2025” (conforme alla regola “anno + mese”);
  • Candidato 2: “iPhone 15” (conforme alla regola “nome del prodotto + modello”);
  • Candidato 3: “test IP68 di impermeabilità” (conforme alla regola “parametro tecnico + azione”);
  • Candidato 4: “profondità 6 metri” (conforme alla regola “numero + unità + attributo”);
  • Candidato 5: “30 minuti” (conforme alla regola “numero + unità di tempo”).

Fase 2: classificazione del tipo — applicare un’etichetta al candidato

Attraverso la “testa di classificazione del tipo” del modello multitask, il modello assegna un tipo a ogni candidato:

  • “settembre 2025” → TIME (tempo);
  • “iPhone 15” → PRODUCT (prodotto);
  • “test IP68 di impermeabilità” → EVENT (evento);
  • “profondità 6 metri” → ATTRIBUTE (attributo che descrive la profondità di impermeabilità);
  • “30 minuti” → ATTRIBUTE (attributo che descrive la durata di impermeabilità).

Fase 3: definizione dei confini — correggere la “posizione iniziale e finale” dell’entità

Alcuni candidati possono presentare confini errati (ad esempio “test IP68 di impermeabilità” potrebbe essere interpretato come “IP68” + “test di impermeabilità”). Il modello verifica i confini tramite i vettori contestuali:

  • “IP68” è uno standard di grado di impermeabilità (quindi ATTRIBUTE), ma “test IP68 di impermeabilità” nel suo insieme è un evento (EVENT), quindi il confine viene corretto in “test IP68 di impermeabilità”;
  • in “profondità 6 metri”, “6 metri” è il valore numerico e “profondità” è l’attributo; considerarlo nel complesso come ATTRIBUTE è più ragionevole.

Fase 4: verifica globale — correggere gli errori combinando l’intero testo

Il modello genera un “vettore semantico globale” dell’intero paragrafo (che rappresenta il tema complessivo, ad esempio “test di impermeabilità dello smartphone”) e controlla se le entità locali entrano in conflitto con il tema generale. Per esempio:

  • se il tema del testo è “recensione di smartphone”, allora “iPhone 15” come PRODUCT è coerente con il tema;
  • se “test IP68 di impermeabilità” è classificato come EVENT, è anch’esso coerente con il tema “recensione di smartphone”, quindi non richiede correzioni.
Come Google garantisce l’accuratezza del riconoscimento delle entità
Dimensione del test Accuratezza iniziale (2020) Accuratezza dopo l’ottimizzazione (2024) Metodo di miglioramento
Dominio generale 85% 92% Aggiunta di 1 milione di dati annotati, ottimizzazione dei parametri di fine-tuning di BERT
Testi lunghi (>5000 caratteri) 78% 90% Introduzione della strategia di “elaborazione per segmenti” (suddivisione in paragrafi da 500 caratteri)
Domini verticali (diritto) 78% 90% Addestramento di modelli dedicati al dominio (oltre 100.000 testi giuridici annotati)
Entità emergenti (come “dopamine dressing”) 62% 85% Combinazione con la capacità di previsione contestuale di BERT per riconoscere dinamicamente nuovi termini

Feedback degli utenti:

Google raccoglie i dati sul comportamento di ricerca degli utenti (ad esempio se la pagina cliccata contiene davvero l’entità obiettivo) per ottimizzare il modello in senso inverso.

Ad esempio, se un utente cerca “grado di impermeabilità iPhone 15”, ma la pagina cliccata non etichetta “IP68” come ATTRIBUTE, il modello regolerà i propri parametri per rafforzare il riconoscimento delle entità legate al “grado di impermeabilità”.

“Creare relazioni” tra le parole e costruire la logica

Quando l’utente cerca “scarpe adatte alla corsa”, Google deve sapere qual è la relazione tra “corsa” e “scarpe” (uso funzionale), e tra “intersuola ammortizzata” e “scarpe da corsa” (attributo), per poter restituire risultati davvero pertinenti.

Questa capacità di “creare relazioni tra le parole” si chiama estrazione delle relazioni semantiche (Semantic Relation Extraction)

Modelli pre-addestrati e Knowledge Graph

1. Modelli pre-addestrati: “imparare da soli” le relazioni da enormi quantità di testo

I modelli pre-addestrati (come BERT, PaLM) sono il principale “apprendista” della correlazione semantica. Analizzando trilioni di testi online (come pagine web, libri e forum), catturano automaticamente le relazioni implicite tra le parole. Ad esempio:

  • in frasi come “le scarpe da corsa sono adatte alle lunghe distanze” e “le scarpe da basket sono adatte ai salti”, il modello apprende la relazione di uso funzionale tra “scarpe da corsa” e “lunga distanza”, e tra “scarpe da basket” e “salti”;
  • in frasi come “iPhone 15 monta il chip A17” e “MacBook Pro usa il chip M3”, il modello apprende la relazione di “equipaggiamento” tra “iPhone 15” e “chip A17”, e tra “MacBook Pro” e “chip M3”.

Dettagli tecnici:

I modelli pre-addestrati rappresentano il significato di ogni parola tramite “embedding contestuali” (Contextualized Embedding).

Ad esempio, il vettore di “scarpe da corsa” cambia in frasi diverse a seconda del contesto (come “le scarpe da corsa hanno una buona ammortizzazione” vs “le scarpe da corsa hanno un look elegante”), consentendo al modello di cogliere queste sottili differenze e determinare la relazione concreta tra le parole.

2. Knowledge Graph: usare conoscenza strutturata per “verificare + integrare” le relazioni

Sebbene i modelli pre-addestrati possano apprendere relazioni implicite, possono anche commettere errori (ad esempio interpretare erroneamente la relazione tra “Apple” e “frutto” come se fosse “brand”).

In questo caso entra in gioco il Knowledge Graph di Google (che contiene oltre 500 milioni di entità e 20 miliardi di relazioni), fornendo conoscenza strutturata per verificare e completare le relazioni apprese dal modello.

Ad esempio, quando il modello analizza la frase “Il fornitore dello schermo di iPhone 15 è Samsung”:

  • il modello pre-addestrato apprende dal contesto la relazione di “fornitore” tra “iPhone 15” e “Samsung”;
  • nel Knowledge Graph esiste già la relazione strutturata “iPhone 15 → fornitore dello schermo → Samsung”, che la verifica, confermando infine l’associazione tra “iPhone 15” e “Samsung”.
Dalla base alla complessità: la “rete di relazioni”

Google definisce oltre 20 tipi di relazioni dettagliate, che coprono il 90% degli scenari di ricerca degli utenti. Queste relazioni possono essere suddivise in tre grandi categorie:

1. Relazioni di base (dominio generale)

Tipo di relazione Definizione Esempio (dalla pagina “Come scegliere scarpe da corsa”)
Relazione gerarchica A è una sottoclasse di B (o viceversa) “scarpe da corsa” → “attrezzatura sportiva” (le scarpe da corsa fanno parte dell’attrezzatura sportiva)
Relazione di attributo A è una caratteristica/parametro di B “intersuola ammortizzata” → “scarpe da corsa” (l’intersuola ammortizzata è un attributo delle scarpe da corsa)
Uso funzionale A serve per B “bollitore pour-over” → “preparare il caffè” (il bollitore pour-over serve a preparare il caffè)
Ordine temporale A accade prima/dopo B “rilascio” → “messa in commercio” (un prodotto viene prima lanciato e poi commercializzato)

2. Relazioni complesse (domini verticali)

Per contenuti specialistici come diritto, medicina e tecnologia, Google aggiunge tipi di relazioni più granulari:

  • Settore giuridico: “responsabilità precontrattuale” → “violazione del principio di buona fede” (relazione causale); “articolo 10 del Codice Civile” → “efficacia del matrimonio” (relazione di ambito di applicazione).
  • Settore medico: “infarto miocardico” → “ostruzione coronarica” (relazione eziologica); “aspirina” → “inibizione dell’aggregazione piastrinica” (relazione di azione farmacologica).
  • Settore tecnologico: “Python” → “tutorial di scraping” (relazione di ambito applicativo); “architettura ARM” → “basso consumo energetico” (relazione di caratteristica tecnica).

Le “cinque fasi” dall’estrazione delle relazioni candidate alla verifica globale

Prendiamo come esempio la frase “Quando scegli scarpe da corsa, l’intersuola ammortizzata è fondamentale, perché può ridurre la pressione sulle ginocchia”:

Fase 1: estrazione delle relazioni candidate — trovare i possibili “semi di relazione”

Il modello scansiona prima il testo e, basandosi sulla base di regole (ad esempio la struttura “X è fondamentale per Y” può suggerire una relazione di uso funzionale) e sulle probabilità statistiche (ad esempio la probabilità di co-occorrenza tra “intersuola ammortizzata” e “scarpe da corsa” è del 90%), etichetta le possibili relazioni candidate.

  • Candidato 1: “scarpe da corsa” e “intersuola ammortizzata” (possibile relazione di attributo);
  • Candidato 2: “intersuola ammortizzata” e “ridurre la pressione sulle ginocchia” (possibile relazione di uso funzionale).

Fase 2: classificazione del tipo di relazione — etichettare il candidato

Tramite la “testa di classificazione delle relazioni” del modello pre-addestrato, il sistema assegna un tipo a ogni candidato:

  • “scarpe da corsa” e “intersuola ammortizzata” → relazione di attributo (l’intersuola ammortizzata è un attributo delle scarpe da corsa);
  • “intersuola ammortizzata” e “ridurre la pressione sulle ginocchia” → relazione di uso funzionale (l’intersuola ammortizzata serve a ridurre la pressione sulle ginocchia).

Fase 3: definizione dei confini — correggere il “raggio d’azione” della relazione

Alcuni candidati possono avere confini errati (ad esempio “intersuola ammortizzata” potrebbe essere interpretata come parte costitutiva delle “scarpe da corsa” invece che come attributo). Il modello verifica i confini tramite i vettori contestuali:

  • “Intersuola ammortizzata” descrive una “caratteristica del materiale/struttura” delle scarpe da corsa, quindi è un attributo e non una semplice parte costitutiva (come “suola” o “tomaia”); perciò viene corretta come relazione di attributo.

Fase 4: verifica globale — correggere gli errori combinando l’intero testo

Il modello genera un “vettore semantico globale” dell’intero paragrafo (che rappresenta il tema generale, come “guida all’acquisto delle scarpe da corsa”) e controlla se le relazioni locali sono coerenti con tale tema. Per esempio:

  • se il tema del testo è “acquisto di scarpe da corsa”, la relazione di uso funzionale tra “intersuola ammortizzata” e “ridurre la pressione sulle ginocchia” è coerente con il tema;
  • se invece il tema fosse “prevenzione degli infortuni sportivi”, allora bisognerebbe rivalutare se la relazione è collegata al concetto di “prevenzione del danno”.

Fase 5: verifica del Knowledge Graph — usare la conoscenza strutturata come rete di sicurezza

Il modello richiama il Knowledge Graph per verificare la ragionevolezza della relazione:

  • nel Knowledge Graph, tra gli attributi delle “scarpe da corsa” figurano “intersuola ammortizzata”, “peso”, “materiale della suola”, confermando che “intersuola ammortizzata” è un attributo legittimo;
  • nel Knowledge Graph, tra le funzioni dell’“intersuola ammortizzata” figurano “ridurre la pressione sulle ginocchia” e “migliorare il comfort”, confermando che “ridurre la pressione sulle ginocchia” è una funzione valida.
Come Google garantisce l’accuratezza della correlazione semantica
Dimensione del test Accuratezza iniziale (2020) Accuratezza dopo l’ottimizzazione (2024) Metodo di miglioramento
Relazioni comuni (gerarchiche, attributive) 78% 88% Aggiunta di 2 milioni di dati annotati, ottimizzazione dei parametri di fine-tuning di BERT
Relazioni complesse (causalità, uso funzionale) 65% 82% Introduzione della “chain reasoning” (collegare entità distanti tramite nodi intermedi)
Domini verticali (medicina) 60% 79% Addestramento di modelli dedicati al dominio (oltre 50.000 testi medici annotati)
Relazioni emergenti (come “grandi modelli AI → multimodale”) 52% 75% Combinazione con la capacità di previsione contestuale dei modelli pre-addestrati per riconoscere dinamicamente nuove relazioni
Correggere le deviazioni semantiche delle parole combinando l’intero testo

Quando l’utente cerca “tutorial Python”, Google deve stabilire se “Python” nella pagina indica il linguaggio di programmazione (62%) oppure il serpente (18%);

se l’utente cerca “evento Apple”, bisogna confermare che “Apple” indica l’azienda tecnologica (95%) e non il frutto (5%).

Questa capacità di “correggere le deviazioni semantiche di una parola combinando l’intero testo” si chiama disambiguazione contestuale (Contextual Disambiguation)

Attenzione bidirezionale e semantica globale

1. Cattura semantica che “guarda avanti e indietro” allo stesso tempo

Il meccanismo di attenzione bidirezionale (il cuore di BERT) permette al modello di analizzare contemporaneamente la prima e la seconda metà della frase, catturando le relazioni di “causa ed effetto” tra le parole.

Per esempio, quando elabora la frase “La mela di Xiaoming è matura”, il modello presta prima attenzione a “Xiaoming” e “è matura”, e deduce preliminarmente che “mela” potrebbe indicare il frutto;

ma quando elabora la frase successiva “Ha intenzione di usare Apple per rilasciare un nuovo sistema”, torna al contesto precedente e si accorge che “rilasciare un nuovo sistema” non ha nulla a che vedere con un frutto, correggendo quindi il significato di “Apple” in “azienda tecnologica”.

Dettagli tecnici:

L’attenzione bidirezionale si realizza tramite la matrice “Query-Key-Value”:

  • Query: il vettore semantico della parola corrente;
  • Key: i vettori semantici delle altre parole;
  • Value: i vettori semantici delle altre parole (pesati dai coefficienti di attenzione).

Il modello calcola la similarità tra la “Query” e le “Key” per assegnare a ogni parola un “peso di attenzione”: più alto è il peso, maggiore è l’influenza semantica di quella parola sulla parola corrente.

Ad esempio, “rilasciare un nuovo sistema” ha un peso di attenzione verso “Apple” pari a 0,8 (su un massimo di 1), molto superiore allo 0,2 di “è matura” rispetto a “Apple”, perciò il modello usa con priorità “rilasciare un nuovo sistema” per correggere il significato di “Apple”.

2. Il “punto di ancoraggio tematico” dell’intera pagina

Oltre al contesto locale della frase, Google genera anche un “Global Semantic Vector” per l’intero contenuto della pagina, che rappresenta il tema complessivo (ad esempio “recensione di prodotti tecnologici” o “ricette per dimagrire”).

Quando il significato locale di una parola entra in conflitto con il tema globale, il modello dà priorità alla correzione verso il significato coerente con il tema.

Per esempio, nel processare una pagina intitolata “Test impermeabilità iPhone 15 modello 2025”:

  • nella frase locale “L’ultimo iPhone 15 rilasciato da Apple supporta la comunicazione satellitare”, il significato iniziale di “Apple” potrebbe essere “frutto”;
  • ma il vettore semantico globale mostra che il tema della pagina è “recensione di smartphone”, perciò il modello corregge “Apple” in “azienda tecnologica”.
Le “quattro fasi” dall’ambiguità locale alla coerenza globale

Prendiamo come esempio il contenuto “L’ultimo iPhone 15 rilasciato da Apple supporta la comunicazione satellitare, una buona notizia per gli amanti dell’outdoor”:

Fase 1: rilevamento dell’ambiguità locale — contrassegnare le parole “sospette”

Il modello scansiona prima l’intero testo e identifica le parole potenzialmente ambigue (polisemiche, pronomi ecc.). In questo caso, “Apple” è una parola tipicamente ambigua (frutto/azienda tecnologica), mentre “esso” è un pronome che richiede la risoluzione del referente.

Fase 2: analisi del contesto locale — estrarre i “significati candidati”

Per ogni parola “sospetta”, il modello analizza il contesto locale (1-3 frasi prima e dopo) ed estrae i possibili significati candidati:

  • Significati candidati di “Apple”:
    • Candidato 1: frutto (basato su collocazioni frequenti come “matura” o “mangiare”);
    • Candidato 2: azienda tecnologica (basato su collocazioni frequenti come “rilasciare iPhone 15” o “comunicazione satellitare”).
  • Significati candidati di “esso”:
    • Candidato 1: iPhone 15 (riferimento all’“iPhone 15” della frase precedente);
    • Candidato 2: comunicazione satellitare (riferimento alla “funzione di comunicazione satellitare” della frase precedente).

Fase 3: verifica semantica globale — abbinare il tema della pagina

Il modello genera il “vettore semantico globale” dell’intera pagina (codificando il testo completo con BERT) e ne calcola la similarità con i vettori dei significati candidati, scegliendo quello più coerente con il tema generale:

  • titolo e corpo del testo contengono ripetutamente parole come “iPhone 15”, “comunicazione satellitare” e “amanti dell’outdoor”, perciò il vettore semantico globale punta verso “recensione di prodotto tecnologico”;
  • tra i significati candidati di “Apple”, “azienda tecnologica” ha una similarità col tema globale (cosine similarity 0,85) molto più alta rispetto a “frutto” (0,12), quindi viene scelto per primo “azienda tecnologica”;
  • tra i significati candidati di “esso”, “iPhone 15” ha una similarità col tema globale (0,9) superiore a “comunicazione satellitare” (0,6), quindi viene corretto in “iPhone 15”.

Fase 4: risoluzione dei conflitti — gestire le contraddizioni tra fonti multiple

Se il contesto locale entra in conflitto con il tema globale (ad esempio in una frase “Apple” indica il frutto, ma il tema generale è tecnologico), il modello analizza ulteriormente la causa del conflitto:

  • se si tratta di un “errore materiale” (ad esempio “Apple” avrebbe dovuto essere “fragola”), il modello mantiene la semantica globale;
  • se invece c’è “coesistenza di più significati” (ad esempio la pagina parla sia del frutto mela sia dell’azienda Apple), il modello genera una “stratificazione semantica”, mostrando con priorità il significato più rilevante per la query dell’utente.
Come Google garantisce l’accuratezza della correzione contestuale
Dimensione del test Accuratezza iniziale (2020) Accuratezza dopo l’ottimizzazione (2024) Metodo di miglioramento
Query ambigue (Python) 58% 82% Introduzione dell’attenzione bidirezionale di BERT, con 1 milione di testi ambigui annotati aggiunti
Correzione dei pronomi (“esso”) 65% 89% Addestramento di un “modello di coreference resolution” (basato su oltre 100.000 frasi annotate)
Testi lunghi (>5000 caratteri) 52% 78% Introduzione del “vettore globale segmentato” (un vettore globale locale ogni 500 caratteri)
Correzione cross-lingua (inglese → cinese) 48% 75% Combinazione con il modello BERT multilingue, con l’aggiunta di 500.000 annotazioni di allineamento cross-lingua

Come l’NLP determina ciò che vuole l’utente

La tecnologia NLP di Google determina i bisogni reali dell’utente analizzando il “tipo di intento” della query (informativo / navigazionale / transazionale), l’“espansione semantica” (bisogni impliciti) e l’“adattamento al contesto” (tempo / luogo / dispositivo).

Google elabora oltre 8,5 miliardi di ricerche al giorno (dati 2024). Il CTR delle query informative è passato dal 12% al 28% dopo l’introduzione dell’NLP, mentre l’accuratezza delle query ambigue è salita dal 58% all’82% grazie all’ottimizzazione di BERT.

Tipi di intento

1. Bisogno informativo: l’utente vuole “imparare qualcosa”

Parole caratteristiche: “come fare”, “principio”, “motivo”, “tutorial” ecc.

Esempi: se l’utente cerca “come preparare il caffè pour-over” o “cause dell’infarto miocardico”, l’NLP abbinerà pagine tutorial o di divulgazione.

Dati di supporto: i test interni di Google del 2023 mostrano che la percentuale di risultati efficaci nella prima schermata per le query informative è passata dal 38% al 72% grazie al riconoscimento di parole chiave come “come fare”.

2. Bisogno navigazionale: l’utente vuole “trovare un sito specifico”

Parole caratteristiche: “sito ufficiale”, “ufficiale”, “login”, “registrazione” ecc.

Esempi: se l’utente cerca “sito ufficiale Taobao” o “login Apple ID”, l’NLP indirizza direttamente al sito ufficiale invece che a pagine di terze parti.

Dati di supporto: una ricerca Microsoft del 2024 mostra che, nelle query navigazionali, la probabilità che l’utente clicchi il sito obiettivo è passata dal 45% all’89% grazie al riconoscimento preciso di termini come “ufficiale”.

3. Bisogno transazionale: l’utente vuole “comprare beni/servizi”

Parole caratteristiche: “consigliato”, “economico”, “sconto”, “acquisto” ecc.

Esempi: se l’utente cerca “consigli tastiera meccanica economica” o “benzinaio vicino”, l’NLP mostrerà con priorità pagine e-commerce o attività locali.

Dati di supporto: secondo un’indagine eMarketer del 2024, il tasso di conversione delle query transazionali è passato dal 3,2% al 5,8% grazie all’NLP che copre bisogni impliciti come “consigliato” e “sconto”.

Tabella comparativa dei tipi di intento:

Tipo Esempi di parole caratteristiche Obiettivo dell’utente Strategia di matching NLP
Informativo come fare, principio, tutorial Ottenere conoscenza Abbinare pagine tutorial/divulgative
Navigazionale sito ufficiale, ufficiale, login Accedere a un sito specifico Indirizzare direttamente al sito ufficiale
Transazionale consigliato, economico, sconto, acquisto Acquistare beni/servizi Dare priorità a pagine e-commerce/attività locali

Espansione semantica

Le parole usate nella ricerca esprimono di solito solo il 10%-20% del bisogno centrale; il restante 80%-90% è implicito (ad esempio “prezzo”, “difficoltà”, “scenario d’uso”).

Attraverso la Semantic Expansion, l’NLP estende bisogni correlati a partire dai termini centrali, coprendo attivamente anche le intenzioni che l’utente non esplicita.

Modalità di espansione 1: espansione tramite parole correlate

Basandosi sul “Word Embedding”, l’NLP collega il termine centrale a parole semanticamente vicine. Ad esempio:

  • termine centrale “ricette per dimagrire” → parole correlate “ipocalorico”, “facile da fare”, “adatto a chi lavora”, “senza zucchero”;
  • termine centrale “cosa indossare quando piove” → parole correlate “impermeabile”, “antiscivolo”, “leggero”, “caldo”.

Dati di supporto: gli A/B test di Google del 2022 mostrano che, quando i risultati coprono i bisogni impliciti, il tempo di permanenza degli utenti passa da 45 a 78 secondi (+73%).

Modalità di espansione 2: espansione contestualizzata

L’NLP combina tempo, luogo e dispositivo della ricerca per dettagliare ulteriormente il bisogno. Ad esempio:

  • Contesto temporale: cercare “giacca” in inverno → estende a “imbottita”, “calda”; cercare “giacca” in estate → estende a “anti-UV”, “leggera”;
  • Contesto geografico: cercare “hotpot” a Shanghai → estende a “popolare in zona”; cercarlo a Chengdu → estende a “autentico sapore sichuanese”;
  • Contesto del dispositivo: da smartphone cercare “benzinaio vicino” → estende a “prezzo carburante in tempo reale”, “il più vicino”; da computer → estende a “recensioni utenti”, “promozioni”.

Dati di supporto: uno studio Microsoft del 2024 su più scenari mostra che, dopo l’espansione contestualizzata, il tempo necessario agli utenti per completare il compito si riduce del 42% (da 90 a 52 secondi su mobile).

Come l’NLP “comprende” i bisogni degli utenti

1. Natural Language Understanding (NLU)

L’NLU è la base dell’NLP: grazie alla combinazione di tokenizzazione, entity recognition e correlazione semantica, “scompone” la query dell’utente. Ad esempio:

  • l’utente cerca “test impermeabilità iPhone 15 modello 2025” → viene tokenizzato in “modello 2025 / iPhone 15 / test di impermeabilità”;
  • le entità riconosciute diventano “TIME (2025)”, “PRODUCT (iPhone 15)”, “EVENT (test di impermeabilità)”;
  • la correlazione semantica li unisce in “test delle prestazioni di impermeabilità dell’iPhone 15 nel 2025”.

Dati di supporto: secondo il blog tecnico di Google del 2023, l’accuratezza di scomposizione dell’NLU sulle query complesse raggiunge il 92% (nel dominio generale).

2. Modelli di deep learning (come BERT)

Modelli pre-addestrati come BERT apprendono la “semantica contestuale” da trilioni di testi, risolvendo i problemi di ambiguità. Ad esempio:

  • l’utente cerca “Python” → BERT analizza il contesto (come “funzione print()” o “tutorial di scraping”) → lo interpreta come linguaggio di programmazione;
  • l’utente cerca “Java” → BERT combina parole correlate come “caffè” e “programmazione” → lo interpreta come linguaggio di programmazione (62%) oppure come isola (18%).

Dati di supporto: i test interni di Google del 2024 mostrano che BERT ha fatto salire l’accuratezza delle query ambigue dal 58% all’82%.

3. Integrazione di dati contestuali in tempo reale

L’NLP integra dati in tempo reale come orario del dispositivo, posizione geografica e cronologia di ricerca, regolando dinamicamente la comprensione del bisogno. Ad esempio:

  • l’utente cerca da smartphone “benzinaio vicino” → l’NLP ottiene la posizione GPS → dà priorità ai distributori nel raggio di 3 km;
  • l’utente cerca “biglietti cinema” nel fine settimana → l’NLP combina il fattore temporale (weekend) → raccomanda gli spettacoli dei cinema più popolari.

Dati di supporto: secondo un’indagine Pew Research del 2024, dopo l’integrazione di dati contestuali in tempo reale, la soddisfazione degli utenti per i risultati di ricerca passa dal 68% all’85%.

Effetti reali

Di seguito i dati sul comportamento degli utenti in tre scenari tipici:

Tipo di scenario Ricerca tradizionale (senza NLP) Ricerca ottimizzata con NLP Miglioramento dell’efficacia Fonte dei dati
Query informativa (come fare una torta) Prima schermata con pubblicità e tutorial irrilevanti mescolati Prima schermata con tutorial dai passaggi chiari Tempo di permanenza da 45 s → 78 s (+73%) A/B test Google 2022
Query navigazionale (sito ufficiale Taobao) Prima schermata con piattaforme shopping di terze parti Prima schermata con solo il sito ufficiale di Taobao Probabilità di cliccare il sito obiettivo da 45% → 89% Ricerca Microsoft 2024
Query transazionale (tastiera meccanica economica) Prima schermata con prodotti costosi mescolati Prima schermata con priorità ai modelli dal miglior rapporto qualità-prezzo Tasso di conversione da 3,2% → 5,8% (+81%) Indagine eMarketer 2024

Per concludere, il cuore del modo in cui l’NLP determina il bisogno dell’utente è trasformare “le parole inserite dall’utente” nella “vera intenzione dell’utente”.

滚动至顶部