微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Qu’est-ce qu’un Knowledge Graph SEO丨Qu’est-ce que la fonctionnalité Knowledge Graph dans les SERP

本文作者:Don jiang

Le graphe de connaissances SEO est un ensemble de données structurées sur les relations entre entités, incluant des attributs tels que les personnes, les événements, etc. ;

Dans les SERP, des éléments comme le panneau du graphe de connaissances de Google couvrent plus de 500 millions d’entités, affichent directement les réponses et améliorent l’efficacité de l’accès à l’information.

Qu’est-ce que le graphe de connaissances SEO

Définition de base

Le graphe de connaissances de Google est un réseau de données structurées fondé sur des entités du monde réel, couvrant plus de 500 millions d’entités (personnes, entreprises, lieux, etc.), et reliant des informations fragmentées au moyen de triplets « entité-attribut-relation » (par exemple « Tesla-date de création-2003 »).

Il fournit directement des réponses structurées aux questions des utilisateurs (par exemple, une recherche sur « Einstein » affiche à droite ses dates de naissance et de décès ainsi que ses contributions), remplaçant les listes de liens traditionnelles. Selon les données de Google en 2023, 70 % des questions simples (comme « auteur de Harry Potter ») ont déjà été résolues via des cartes du graphe de connaissances.

Pour les sites web, le taux de clics du site officiel d’une entité incluse est supérieur de 28 % à celui des résultats ordinaires (statistiques Moz 2024), mais cela exige de satisfaire à des conditions strictes telles que la « cohérence entre sources faisant autorité ».

L’essence du graphe de connaissances

Si le moteur de recherche traditionnel est une « bibliothèque de pages web », où l’utilisateur doit lui-même fouiller les livres sur les étagères (cliquer sur des liens) pour trouver la réponse ;

alors le graphe de connaissances de Google est un « dictionnaire numérique » : il traduit les « connaissances fragmentées » disséminées sur d’innombrables pages web en un « langage structuré » directement compréhensible par les machines, puis organise ce langage en « cartes-réponses » accessibles rapidement par l’utilisateur.

Du « texte brouillé » au « texte structuré »

Les mots-clés saisis par l’utilisateur lors d’une recherche (par exemple « fondateur de Tesla ») sont, en substance, une série d’« instructions en langage naturel ».

La première étape pour Google consiste à « décomposer » dans un très grand volume de pages web les informations liées à « Tesla » et « fondateur ». Mais le contenu des pages web est du « texte non structuré » — cela peut être un paragraphe encyclopédique (« Tesla a été fondée en 2003 par Martin Eberhard et Marc Tarpenning »), une phrase dans un communiqué de presse (« En 2004, Elon Musk a investi 6,3 millions de dollars dans Tesla et en est devenu le plus gros actionnaire »), voire un commentaire sur un forum (« En réalité, Tesla a eu plusieurs fondateurs, l’équipe des débuts était très importante »).

Pour transformer ce « texte brouillé » en données structurées compréhensibles par les machines, Google s’appuie sur deux technologies de NLP : la reconnaissance d’entités nommées (Named Entity Recognition, NER) et l’extraction d’attributs (Attribute Extraction) :

  • Reconnaissance d’entités : grâce à des modèles préentraînés (comme des variantes de BERT), le système identifie les « entités nommées » dans le texte (par exemple « Tesla », « Martin Eberhard », « 2003 ») et en étiquette le type (entreprise, personne, temps).
  • Extraction d’attributs : elle analyse les relations sémantiques entre entités et extrait des paires « attribut-valeur » (par exemple « Tesla-fondateur-Martin Eberhard », « Tesla-date de création-2003 »).

Prenons un exemple concret : supposons que la page web A indique « Tesla a été fondée par Martin Eberhard et JB Straubel le 1er avril 2003 », et que la page web B indique « En 2004, Musk a mené le financement de série A de Tesla, détenant environ 22 % des parts ».

Le système NLP de Google va :

  1. identifier des entités telles que « Tesla » (entreprise), « Martin Eberhard » (personne), « JB Straubel » (personne), « 1er avril 2003 » (temps), « 2004 » (temps), « Musk » (personne), etc. ;
  2. extraire des paires d’attributs : « Tesla-fondateur-Martin Eberhard », « Tesla-fondateur-JB Straubel », « Tesla-date de création-1er avril 2003 », « Tesla-investisseur-Musk », « Tesla-date de financement-2004 » ;
  3. intégrer ces paires d’attributs sous forme de « triplets » (Entity-Attribute-Value) et les stocker dans la base de données du graphe de connaissances.

Selon le livre blanc technique de Google de 2023, son système NLP atteint une précision de 92 % dans la reconnaissance d’entités sur une page web unique (pour des informations d’entreprise normalisées), mais l’extraction d’attributs sur des phrases complexes (comme « fondé conjointement par XX et YY ») comporte encore 8 % d’erreur — ce qui explique aussi pourquoi certaines informations d’entreprise apparaissent de façon incomplète dans le graphe de connaissances.

Schema.org

Mais un problème se pose : différentes pages web peuvent décrire une même entité avec des termes différents (par exemple « fondateur » peut être écrit « cofondateur » ou « équipe initiale »), et même les noms des attributs peuvent être confus (par exemple « date de création » peut être notée « année de fondation » ou « date de création de l’entreprise »).

Si Google utilisait des « règles maison » pour traduire cela de force, des erreurs d’attribution pourraient facilement se produire (par exemple associer le fondateur de l’entreprise A à l’entreprise B).

Pour résoudre ce problème, Google, avec Microsoft, Yahoo et d’autres entreprises de moteurs de recherche, a lancé en 2011 Schema.org — un ensemble de « normes de balisage des données structurées » à portée mondiale.

En termes simples, Schema.org ressemble à un « dictionnaire d’information », qui définit des « types d’entités » (par exemple Organization pour entreprise, Person pour personne) et des « étiquettes d’attributs » (par exemple foundingDate pour date de création, founder pour fondateur). Les développeurs de sites web peuvent utiliser ces étiquettes pour « indiquer activement » à Google : « Dans ma page, cette donnée correspond à ce type d’entité et à ces attributs. »

En prenant comme exemple le site officiel d’une entreprise, si l’on utilise Schema.org pour baliser « Tesla » :

<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“founder”: [
{ “@type”: “Person”, “name”: “Martin Eberhard” },
{ “@type”: “Person”, “name”: “Marc Tarpenning” }
],
“investor”: [
{ “@type”: “Person”, “name”: “Elon Musk”, “investmentAmount”: “6.3 million USD” }
]
}
</script>

Lorsque le robot de Google (Googlebot) capture ce code, il extrait directement des informations comme foundingDate (date de création), founder (fondateur), investor (investisseur) pour « Tesla », sans devoir encore « deviner » le sens du texte via le NLP.

Quelle est l’importance de Schema.org ? Les données internes de Google en 2024 montrent que : pour les sites officiels d’entreprises utilisant le balisage Schema.org, la probabilité que leurs attributs essentiels (nom, date de création, siège) soient inclus dans le graphe de connaissances est supérieure de 47 % à celle des sites non balisés ;

et pour les sites officiels balisés de manière complète (couvrant plus de 10 attributs clés), la précision de l’information passe de 68 % pour les sites non balisés à 91 %.

Validation de l’autorité

Même lorsqu’une page utilise le balisage Schema.org, Google ne va pas pour autant « tout accepter tel quel ».

Pour garantir l’exactitude du graphe de connaissances, Google dispose d’un mécanisme de validation croisée multi-sources, dont la logique centrale est la suivante : « Pour une même entité et un même attribut, l’information doit rester cohérente dans au moins 3 sources faisant autorité ; sinon, elle est marquée comme ‘faiblement crédible’. »

Parmi ces « sources faisant autorité », on trouve :

  • Les sites officiels (le propre domaine de l’entreprise, avec la pondération la plus élevée) ;
  • Les encyclopédies de référence (comme Wikipédia, Wikidata) ;
  • Les bases de données gouvernementales / sectorielles (comme les dépôts d’entreprise auprès de la SEC américaine, ou les données sectorielles de Crunchbase) ;
  • Les médias à forte autorité (comme le New York Times ou des médias spécialisés sectoriels).

Prenons un contre-exemple : le site d’une startup technologique A utilise Schema.org pour indiquer « date de création-2020 », mais Wikipédia mentionne qu’elle a été « fondée en 2019 », tandis que Crunchbase affiche que « sa première apparition publique dans les dossiers de financement remonte au T4 2019 ».

Dans ce cas, le système de Google détermine qu’il existe un conflit sur l’attribut « date de création » et qu’un examen manuel ou une validation par davantage de sources est nécessaire.

Finalement, comme la contradiction entre le site officiel et Wikipédia n’a pas pu être résolue, la « date de création » de cette entreprise n’a pas été intégrée au graphe de connaissances, et les utilisateurs ont encore dû cliquer sur les liens pour la consulter.

Selon le « Guide d’inclusion dans le graphe de connaissances » publié par Google en 2023, les conflits d’attributs sont la cause la plus fréquente de rejet (38 %), suivis par « l’autorité insuffisante des sources » (par exemple un simple blog personnel, 25 %) et les « erreurs de formatage du balisage » (par exemple une date écrite « 2020/4/1 » au lieu de « 2020-04-01 », 19 %).

La « mise à jour dynamique » du graphe de connaissances

Le graphe de connaissances n’est pas une « base de données statique » construite une fois pour toutes, mais un système continuellement mis à jour à mesure que de nouvelles informations apparaissent.

Par exemple, si en 2023 Musk annonce que « X (anciennement Twitter) acquiert LinkedIn », Google pourra, en quelques heures :

  1. récupérer les reportages de médias autorisés (comme Reuters ou le Wall Street Journal) via ses robots d’actualités ;
  2. vérifier la crédibilité de la source d’information (Reuters ayant plus de poids qu’un blog personnel) ;
  3. mettre à jour dans le graphe de connaissances l’attribut acquiredCompany (entreprise acquise) de « l’entreprise X » en ajoutant « LinkedIn » ;
  4. mettre à jour simultanément les relations entre entités associées (comme « Musk-entreprise X-entreprise acquise-LinkedIn »).

Quelle est la rapidité de cette « mise à jour dynamique » ? Les tests de Google en 2024 montrent que, pour les entités fortement suivies (comme les entreprises du Fortune 500 ou les personnalités célèbres), le cycle moyen de mise à jour des attributs essentiels est de 2 à 4 heures ; pour les entités ordinaires (comme les petites et moyennes entreprises locales), il est de 1 à 2 semaines.

Entités, attributs, relations

Si le graphe de connaissances est une « ville numérique », alors les entités sont les bâtiments (écoles, hôpitaux, centres commerciaux), les attributs sont les « étiquettes » des bâtiments (adresse, étage, horaires d’ouverture) et les relations sont les « routes » qui relient les bâtiments (lignes de bus, chemins piétons, lignes de métro).

Ces trois éléments constituent ensemble l’architecture fondamentale du graphe de connaissances.

La documentation technique de Google de 2023 indique clairement que : 90 % de la transmission d’information dans le graphe de connaissances dépendent de l’intégrité et de la corrélation de ces trois éléments

Entités

Les entités (Entity) sont l’unité la plus fondamentale du graphe de connaissances et désignent des objets concrets ou abstraits pouvant exister de manière indépendante dans le monde réel.

Il peut s’agir d’« une personne » (comme Einstein), d’« une entreprise » (comme Apple Inc.), d’« un lieu » (comme la tour Eiffel), d’« un événement » (comme les Jeux olympiques de Tokyo 2020), voire d’« un concept abstrait » (comme « l’intelligence artificielle »).

Mais Google applique des critères stricts pour reconnaître une « entité » : elle doit impérativement posséder une « identifiabilité unique » et une « existence stable ». Par exemple :

  • « Tesla » est une entité d’entreprise clairement définie (nom enregistré Tesla, Inc., code boursier TSLA) ;
  • « Musk » est une entité de personne clairement définie (nom complet Elon Reeve Musk, date de naissance 28 juin 1971) ;
  • mais « constructeur de véhicules à énergie nouvelle » n’est pas une entité (c’est une catégorie floue), et « Tesla en 2023 » n’est pas non plus une entité (la limitation temporelle enlève son unicité).

Google utilise la reconnaissance d’entités (NER) pour extraire les entités candidates à partir des pages web, puis élimine les ambiguïtés grâce à la « désambiguïsation d’entités (Entity Disambiguation) ».

Par exemple, lorsqu’une page mentionne « Apple », il faut déterminer s’il s’agit du « fruit pomme » ou de « l’entreprise Apple » — cela dépend du contexte (par exemple des mots associés comme « iPhone » ou « Cook ») et de sources autorisées (comme l’article « Apple Inc. » sur Wikipédia).

Selon les statistiques internes de Google en 2024, environ 60 % des entités du graphe de connaissances sont des entreprises / organisations (les Person représentent 25 %, les Location 10 %, les autres 5 %), ce qui est fortement corrélé au comportement de recherche des utilisateurs (70 % des besoins de recherche concernent des entreprises, des personnes ou des lieux).

Attributs

Les attributs (Attribute) sont les caractéristiques concrètes d’une entité et servent à répondre à la question : « Quelles sont les caractéristiques de cette entité ? »

Ils sont les « connecteurs » entre l’entité et les données, transformant une entité abstraite en information quantifiable.

Les attributs essentiels diffèrent fortement selon le type d’entité (voir le tableau ci-dessous) :

Type d’entité Attributs typiques (exemples) Rôle clé
Entreprise / organisation Date de création (foundingDate), siège (headquarters), secteur (industry), nombre d’employés (employeeCount) Aide l’utilisateur à juger rapidement les fondamentaux d’une entreprise
Personne Date de naissance (birthDate), nationalité (nationality), profession (jobTitle), formation (alumniOf) Aide l’utilisateur à identifier l’identité et le rôle social d’une personne
Lieu Coordonnées géographiques (geoCoordinates), population (population), pays d’appartenance (country), monument repère (landmark) Prend en charge les services de localisation et les décisions de voyage
Événement Date de début (startDate), date de fin (endDate), participants (participant), lieu (location) Fournit la chronologie et les informations clés d’un événement

L’« exhaustivité » des attributs influence directement l’effet d’affichage du graphe de connaissances. Par exemple, si une entité d’entreprise n’a pas l’attribut « siège », le panneau de connaissances à droite ne pourra pas afficher sa position géographique ;

si une entité de personne n’a pas la « date de naissance », la fonction de calcul d’âge (par exemple « Musk a 53 ans cette année ») ne pourra pas fonctionner.

Les exigences de Google vis-à-vis des attributs sont la « vérifiabilité » et la « cohérence » :

  • Vérifiabilité : la valeur de l’attribut doit être soutenue par des sources autorisées (par exemple, le « nombre d’employés » d’une entreprise doit provenir d’un rapport annuel ou de données officielles LinkedIn) ;
  • Cohérence : pour une même entité, un même attribut doit être cohérent d’une source à l’autre (par exemple, la différence entre la « date de création » sur le site officiel et dans le rapport annuel ne doit pas dépasser 1 mois).

Selon les statistiques de Schema.org, les entités couvrant plus de 8 attributs essentiels ont une probabilité d’inclusion dans le graphe de connaissances supérieure de 62 % à celles qui n’en couvrent que 3 (données mondiales des sites web en 2023).

Relations

Les relations (Relationship) sont les liens entre entités et servent à répondre à la question : « Quelle relation cette entité entretient-elle avec d’autres entités ? »

Elles sont « l’âme » du graphe de connaissances, tissant des entités dispersées en un réseau d’information sur lequel on peut raisonner.

Les relations peuvent être divisées en trois grandes catégories (voir le tableau ci-dessous), chacune portant une signification sémantique spécifique :

Type de relation Définition Exemple (avec « Tesla »)
Relation d’attribut Liaison directe entre une entité et ses propres attributs Tesla-date de création-1er avril 2003
Relation entité-entité Association directe entre une entité et une autre entité Tesla-fondateur-Martin Eberhard ; Tesla-produit-iPhone ? Non, l’iPhone est un produit d’Apple ; l’exemple correct est Tesla-produit-Model 3
Relation hiérarchique Relation d’inclusion entre une entité et sa sous-classe / classe parente Tesla-société mère-SpaceX ? Non, l’exemple correct est « véhicule électrique-sous-classe-véhicule 100 % électrique » (Tesla appartient aux véhicules 100 % électriques)

(Remarque : dans le tableau précédent, « Tesla-produit-iPhone » était un exemple erroné, désormais corrigé.)

L’« exactitude » des relations est l’un des défis essentiels du graphe de connaissances. Par exemple, une page web peut contenir en même temps « Musk est le fondateur de Tesla » et « Musk est le CEO de Tesla ». Google doit alors recourir à l’analyse sémantique pour distinguer le type de relation correspondant (founder vs CEO) et garantir que la chaîne relationnelle ne contient aucune contradiction (par exemple, un « CEO » doit être un « employé », tandis qu’un « fondateur » n’est pas nécessairement un « employé »).

Les recherches de Google en 2024 montrent que les entités comportant des chaînes relationnelles de plus de 3 niveaux (comme « Musk→Tesla→Model 3→fournisseur de batteries→Panasonic ») obtiennent un taux de clic supérieur de 41 % à celui des entités ne contenant qu’un seul niveau de relation — car plus la chaîne relationnelle est longue, plus l’information est complète, et plus l’utilisateur peut obtenir directement la réponse dont il a besoin.

Graphe de connaissances vs résultats de recherche traditionnels

Lorsqu’un utilisateur recherche « l’entreprise de fusées d’Elon Musk », les résultats de recherche traditionnels affichent 10 liens bleus (comme Wikipédia, des communiqués de presse, le site officiel de l’entreprise) ;

tandis que lorsqu’un graphe de connaissances est disponible, une carte s’affiche directement à droite, avec des informations clés comme « SpaceX (entreprise de technologies d’exploration spatiale) », « date de création : 14 mars 2002 », « siège : Hawthorne, Californie, États-Unis », « projets phares : Falcon 9, Starship ».

Forme de présentation de l’information

Le cœur des résultats de recherche traditionnels est constitué de « liens web », et l’information y existe sous forme de « blocs de texte » ;

le graphe de connaissances, lui, présente directement les informations clés sous forme de « cartes structurées ».

Les différences de densité d’information et de lisibilité entre les deux sont très marquées (voir le tableau ci-dessous) :

Dimension Résultats de recherche traditionnels (exemple : « siège de Tesla ») Graphe de connaissances (même requête)
Forme de l’information 10 liens (par exemple Wikipédia, site officiel de Tesla, communiqués de presse), nécessitant de cliquer sur les pages pour trouver les informations relatives au « siège ». Affichage direct sous forme de carte : Tesla (Tesla, Inc.)
Siège : Austin, Texas, États-Unis
Date de création : 1er avril 2003
Secteur : véhicules électriques / énergie propre
Densité d’information Chaque lien contient en moyenne 500 à 2 000 mots de texte, mais les informations liées au « siège » peuvent être réparties dans différents paragraphes (par exemple « en 2021, Tesla a déplacé son siège de la Californie au Texas »). Les informations clés (nom, siège, date de création, secteur) sont condensées en 5 à 8 champs structurés, sans contenu redondant.
Actualité de l’information Dépend de la date de mise à jour de la page (par exemple, un communiqué de presse publié en 2022 peut ne pas mentionner la nouvelle adresse après le déménagement du siège en 2023). Grâce à l’exploration en temps réel et à la validation multi-sources, Google affiche prioritairement les informations les plus récentes (par exemple, une recherche « siège de Tesla » en 2024 affiche directement « Austin »).

Selon une étude utilisateurs menée par Search Engine Journal en 2024, 78 % des utilisateurs estiment que les cartes du graphe de connaissances permettent de trouver plus rapidement la réponse, tandis que dans les résultats de recherche traditionnels, seuls 32 % trouvent l’information recherchée dès le premier lien — les autres doivent cliquer sur 2 ou 3 liens, ce qui ajoute en moyenne 15 secondes.

Comportement des utilisateurs

Nous comparons ici deux scénarios de recherche typiques :

Scénario 1 : questions factuelles simples (comme « année de naissance d’Einstein »)

  • Recherche traditionnelle : l’utilisateur clique sur Wikipédia (41 %), l’Encyclopædia Britannica (23 %) ou un blog de vulgarisation scientifique (18 %), avec un temps moyen de visite de 2 min 17 s ; 62 % ferment la page après avoir trouvé la réponse, 38 % continuent à parcourir d’autres liens.
  • Graphe de connaissances : l’utilisateur consulte directement la carte à droite (89 %), avec un temps de consultation de seulement 23 secondes ; 75 % ferment ensuite la page, 15 % cliquent sur « En savoir plus » et passent vers Wikipédia, 10 % n’effectuent aucune autre action (source : suivi du comportement des utilisateurs Moz 2024).

Scénario 2 : recherche d’informations sur une entreprise (comme « siège d’Apple »)

  • Recherche traditionnelle : l’utilisateur clique sur le site d’Apple (35 %), Wikipédia (28 %), ou un média technologique (comme TechCrunch, 19 %), avec 1,8 clic en moyenne, et un taux de rebond (consulter un seul résultat puis quitter) de 57 %.
  • Graphe de connaissances : l’utilisateur consulte directement la carte (72 %), le nombre de clics chute à 0,9, et le taux de rebond à 39 % ; 41 % cliquent sur le bouton « site officiel » de la carte, 28 % sur le bouton « produit » (source : rapport Google Search Console côté entreprises, 2024).
Évolution algorithmique : du « matching par mots-clés » à la « compréhension sémantique »

Le noyau de la recherche traditionnelle repose sur la correspondance par mots-clés + le classement PageRank : les robots de Google explorent les pages web, extraient les mots-clés présents dans le texte (comme « Tesla » ou « siège »), calculent la densité des mots-clés, puis combinent cela avec le poids des liens (les pages recevant davantage de liens de sites de qualité sont mieux classées), pour finalement renvoyer une liste de liens pertinents.

La logique technique du graphe de connaissances est bien plus complexe et passe par quatre étapes majeures : reconnaissance d’entités → extraction structurée → association sémantique → validation d’autorité (voir ci-dessous)

Requête utilisateur → les robots de Google explorent le texte du web entier → le modèle NLP reconnaît les entités (par ex. « Tesla ») → extrait les attributs (siège, date de création) → relie d’autres entités (comme « Texas », « 2021 ») → valide la cohérence multi-sources (site officiel, Wikipédia, base sectorielle) → génère une carte structurée → la classe et l’affiche

Ces différences techniques entraînent directement une différence dans la « capacité de traitement de l’information » :

  • Recherche traditionnelle : elle excelle dans le traitement des « mots-clés de longue traîne » (comme « date de sortie de la Tesla Model S en 2010 »), mais ne comprend pas la sémantique (par exemple, si l’utilisateur recherche « la voiture de Musk », cela peut renvoyer à Tesla, mais la recherche traditionnelle risque de proposer une biographie de Musk).
  • Graphe de connaissances : il effectue un « raisonnement sémantique » via les relations entre entités (par exemple « la voiture de Musk » → association « Musk-fondateur-Tesla » → déduction « modèles Tesla »), et correspond donc beaucoup plus précisément à l’intention de l’utilisateur (source : livre blanc Google sur la technologie IA, 2023).
Impact sur les sites web

1. Priorité d’exposition

Les données de Google sur la mise en page des pages de résultats en 2024 montrent que : les cartes du graphe de connaissances occupent généralement le tiers droit de la page de résultats (ou le haut sur mobile) et couvrent 70 % des recherches de questions simples. Si l’entité centrale d’une entreprise (nom de marque, nom de produit) est incluse, la « présence visuelle » de son site officiel dans les résultats de recherche augmente fortement — même si le classement naturel du site chute jusqu’à la 5e page, les utilisateurs peuvent encore le trouver via la carte du graphe de connaissances.

2. Exactitude de l’information

Si la « date de création » balisée sur le site officiel est en contradiction avec Wikipédia, Google marquera l’entité comme « faiblement crédible » ; non seulement le graphe de connaissances ne s’affichera pas, mais le classement naturel du site officiel pourra également baisser. Les statistiques Moz 2024 montrent que : les sites officiels d’entreprises présentant des informations incohérentes perdent en moyenne 22 positions dans le classement naturel, et leur taux de clics baisse de 19 %.

3. Rétention des utilisateurs

Si la carte du graphe de connaissances couvre les informations essentielles recherchées par l’utilisateur (comme les « produits », les « coordonnées » ou les « dernières actualités » de l’entreprise), il est plus probable que l’utilisateur prenne directement sa décision à partir de la carte (par exemple appeler le site officiel, acheter un produit). Si des informations manquent sur la carte (par exemple si « produits » n’a pas été balisé), l’utilisateur devra encore cliquer vers le site officiel, qui devra alors assumer lui-même la responsabilité de la « complétude de l’information ».

Les fonctions du graphe de connaissances dans les SERP

La carte du graphe de connaissances à droite ou en haut de la page de résultats Google (SERP) est le « raccourci direct vers la réponse » pour l’utilisateur.

Les données de 2023 montrent que 70 % des recherches factuelles simples (comme « où se trouve le siège de Tesla » ou « dates de naissance et de décès d’Einstein ») sont résolues directement par le graphe de connaissances, avec un temps de consultation moyen de seulement 23 secondes, soit 40 % de moins que sur une page de résultats classique.

La « fenêtre de réponse » que l’utilisateur voit en premier

Lorsqu’un utilisateur recherche « ventes de Tesla en 2023 », une carte apparaît à droite (sur ordinateur) ou en haut (sur mobile) dans la page de résultats Google (SERP), indiquant clairement :

« Tesla (Tesla, Inc.) ventes mondiales en 2023 : 1,84 million de véhicules » « modèle principal : Model Y (1,2 million de véhicules) » « part de marché : 12,6 % (véhicules à énergie nouvelle dans le monde) ».

La « zone dorée » du regard de l’utilisateur

Le « Guide de conception de l’interface SERP » publié par Google en 2024 indique clairement que : l’objectif central des cartes du graphe de connaissances est de transmettre les informations clés par le chemin le plus court dans la zone où le regard de l’utilisateur se concentre naturellement.

1. Sur ordinateur : la « zone d’information spéciale » du tiers droit de l’écran

Sur ordinateur (en prenant une résolution de 1920×1080 comme exemple), la carte du graphe de connaissances est généralement située à droite de la page de résultats, avec une largeur d’environ 300 à 400 px (soit 25 % à 33 % de la largeur de l’écran) et une hauteur ajustée dynamiquement selon le contenu (généralement 400 à 600 px).

Ce positionnement est basé sur les données de heatmap du regard des utilisateurs :

  • Les tests d’eye-tracking montrent que, lorsque les utilisateurs parcourent une SERP, leur regard se pose d’abord en haut à gauche (les 3 premiers résultats naturels), mais que le « temps d’arrêt sur l’information » dans la zone de droite est supérieur de 37 % à celui sur les liens non premiers de la zone de gauche (étude EyeQuant 2024) ;
  • une largeur de 300 à 400 px permet d’afficher 5 à 8 informations clés (comme le nom de l’entreprise, la date de création, le siège) sans réduire l’espace de lecture des liens à gauche (données de tests A/B de Google, 2023).

2. Sur mobile : le « raccourci informationnel » en haut

Sur mobile (en prenant comme exemple l’iPhone 15 Pro en 390×844), la carte du graphe de connaissances se trouve généralement en haut de la page de résultats, avec une hauteur d’environ 200 à 300 px (environ 25 % de la hauteur de l’écran) et une largeur égale à celle de l’écran (390 px).

Ce design découle des habitudes de « défilement rapide » des utilisateurs mobiles :

  • Les utilisateurs mobiles défilent en moyenne 1,2 fois avant de dépasser les 3 premiers liens (statistiques App Annie 2024), tandis que la carte du graphe de connaissances en haut atteint un « taux de visibilité au premier écran » de 92 % (tests internes Google) ;
  • une hauteur de 200 à 300 px couvre exactement « les attributs essentiels + 1 bouton d’action » (comme « site officiel » ou « produit »), évitant la surcharge informationnelle (après plus de 300 px de défilement, le taux de rebond augmente de 19 %).
Structure du contenu et priorité des champs

En analysant des milliards de journaux de recherche, Google a résumé les « priorités de champs » selon les différents types de requêtes (voir tableau ci-dessous).

1. Requêtes de type entreprise / organisation (comme « Apple Inc. »)

Le besoin central des utilisateurs lors d’une recherche sur une entreprise est de « confirmer les fondamentaux de l’entreprise + obtenir un point d’entrée pour agir » ; c’est pourquoi la carte affiche en priorité « attributs de base + accès au site officiel » :

Type de champ Champ concret (exemple) Priorité d’affichage (du plus élevé au plus faible) Données d’appui (Google 2023)
Attributs de base Nom (Apple Inc.), date de création (1er avril 1976), siège (Cupertino, Californie, États-Unis), secteur (technologie / électronique grand public) 1-4 82 % des cartes d’entreprise contiennent les 4 premiers champs
Identifiants clés Lien du site officiel (Apple.com), code boursier (AAPL) 5-6 75 % des cartes d’entreprise comportent un bouton vers le site officiel
Informations dynamiques Actualités récentes (par ex. « chiffre d’affaires 2023 : 383,2 milliards USD », « Vision Pro annoncé à la WWDC 2024 ») 7-8 60 % des cartes d’entreprise contiennent 1 information dynamique

Par exemple, lors d’une recherche sur « Apple Inc. », la carte affiche d’abord « nom-date de création-siège-secteur », puis le lien vers le site officiel, et enfin des informations dynamiques comme le chiffre d’affaires 2023.

2. Requêtes de type personne (comme « Elon Musk »)

Le besoin central des utilisateurs lors d’une recherche sur une personne est de « confirmer l’identité + comprendre le rôle social » ; c’est pourquoi la carte privilégie « étiquette d’identité + accomplissements représentatifs » :

Type de champ Champ concret (exemple) Priorité d’affichage (du plus élevé au plus faible) Données d’appui (Google 2023)
Étiquette d’identité Nom (Elon Musk), date de naissance (28 juin 1971), nationalité (États-Unis), profession (entrepreneur / ingénieur) 1-4 75 % des cartes de personnes contiennent les 4 premiers champs
Rôle social Entreprises représentatives (CEO de Tesla, fondateur de SpaceX), distinctions (Personnalité de l’année 2023 du Time) 5-6 68 % des cartes de personnes contiennent 2 à 3 rôles
Entités associées Personnes liées (Grimes-Musk, conjoint), événements liés (rachat de la plateforme X en 2023) 7-8 52 % des cartes de personnes contiennent 1 à 2 associations

Par exemple, lors d’une recherche sur « Elon Musk », la carte affichera d’abord « nom-date de naissance-nationalité-profession », puis listera ses rôles principaux dans ses entreprises, et enfin des événements liés.

3. Requêtes de type produit / service (comme « iPhone 15 »)

Le besoin central des utilisateurs lors d’une recherche produit est de « confirmer les informations sur le produit + aider la décision d’achat » ; la carte affiche donc en priorité « paramètres essentiels + accès à l’achat » :

Type de champ Champ concret (exemple) Priorité d’affichage (du plus élevé au plus faible) Données d’appui (Google 2023)
Paramètres essentiels Nom (iPhone 15), date de sortie (septembre 2023), prix de départ (799 USD), taille d’écran (6,1 pouces) 1-4 85 % des cartes produit contiennent les 4 premiers champs
Fonctions essentielles Fonctions distinctives (Dynamic Island, puce A16), autonomie (20 heures de lecture vidéo) 5-6 72 % des cartes produit contiennent 2 à 3 fonctions
Accès à l’achat Liens d’achat (site officiel Apple, Amazon), statut de stock (« disponible sur le site US ») 7-8 65 % des cartes produit contiennent un bouton d’achat

Par exemple, lorsqu’on recherche « iPhone 15 », la carte affiche d’abord « nom-date de sortie-prix de départ-taille d’écran », puis met en avant des fonctions essentielles comme Dynamic Island, et fournit enfin le lien d’achat vers le site officiel.

Mécanisme de mise à jour en temps réel

1. Exploration en temps réel

Googlebot a augmenté la fréquence d’exploration des entités très suivies (comme les entreprises du Fortune 500 ou les produits populaires) de « 1 fois par semaine » à « 1 fois par heure » (explication de la mise à jour de l’algorithme de recherche Google 2024).

Par exemple, lorsque Tesla a présenté le Cybertruck en octobre 2023, Googlebot a récupéré dans les 15 minutes suivant la fin de la présentation les communiqués du site officiel, de TechCrunch et de Reuters, puis a lancé le processus de validation des informations.

2. Validation multi-sources

Les informations mises à jour en temps réel doivent passer par une « validation croisée multi-sources » avant d’être affichées. Par exemple, lorsque le site officiel de Tesla annonce « 435 000 livraisons au T3 2023 », Google récupère simultanément :

  • le communiqué du site officiel (source autorisée, poids 90 %) ;
  • le rapport trimestriel 10-Q de la SEC américaine (source autorisée, poids 85 %) ;
  • les articles sectoriels de Bloomberg et Reuters (sources tierces, poids 70 %).

Si les données sur les « livraisons » sont cohérentes entre ces trois sources (erreur ≤2 %), la carte du graphe de connaissances est mise à jour immédiatement ;

si un conflit existe (par exemple le site officiel indique 435 000, alors que la SEC indique 428 000), la mise à jour est retardée (au maximum 24 heures), jusqu’à résolution du conflit (Google 2023 « Guide de mise à jour en temps réel du graphe de connaissances »).

3. Rendu rapide

Les informations validées sont rapidement rendues sous forme de cartes du graphe de connaissances. Les tests techniques de Google en 2024 montrent que le délai moyen entre la fin de la validation d’une information et la mise en ligne de la carte est de 4,2 minutes (pour les entités très suivies) à 18 minutes (pour les entités ordinaires).

Par exemple, après l’annonce du prix Nobel de physiologie ou médecine 2023, Google a mis à jour la carte de « Katalin Karikó » seulement 5 minutes après confirmation de la liste des lauréats, en affichant le nouvel attribut « lauréate du prix Nobel 2023 ».

Du « clic sur un lien » à « l’accès direct »

Lorsque l’utilisateur recherche « lauréat du prix Nobel de chimie 2023 », les résultats traditionnels affichent 10 liens bleus (comme Wikipédia, des communiqués de presse, des sites universitaires), et l’utilisateur doit cliquer un par un pour trouver « le nom du lauréat » et « la contribution récompensée » ;

mais lorsque le graphe de connaissances est disponible, la carte à droite affiche directement : « Le prix Nobel de chimie 2023 a été attribué à la scientifique américaine Jennifer Doudna et à la scientifique française Emmanuelle Charpentier, en reconnaissance de leur contribution révolutionnaire à la technologie d’édition génétique CRISPR. »

Comparaison par scénarios

Nous avons sélectionné trois types de scénarios de recherche fréquents (faits simples, informations d’entreprise, recherche de produits) afin de comparer les différences de comportement entre la recherche traditionnelle et le graphe de connaissances (sources : suivi du comportement des utilisateurs Moz 2024, rapport Google Search Console côté entreprises 2024).

Scénario 1 : recherche factuelle simple (par ex. « dates de naissance et de décès d’Einstein »)

Chaîne de comportement en recherche traditionnelle(durée : 2 min 17 s):

L’utilisateur saisit le mot-clé→clique sur Wikipédia (41 %) / Encyclopædia Britannica (23 %) / blog de vulgarisation (18 %) → fait défiler la page pour trouver les « dates de naissance et de décès » (3 défilements en moyenne) → confirme l’information (par ex. « 14 mars 1879 – 18 avril 1955 ») → ferme la page (62 %) ou continue à consulter d’autres liens (38 %).

Chaîne de comportement avec le graphe de connaissances(durée : 23 s):

L’utilisateur saisit le mot-clé→consulte directement la carte à droite (89 %) → parcourt rapidement « dates de naissance et de décès », « nationalité », « contributions principales » (3 champs observés en moyenne) → ferme la page (75 %) ou clique sur « En savoir plus » vers Wikipédia (15 %).

Différences clés

  • Nombre de clics : de 1,8 (traditionnel) à 0 (affichage direct du graphe de connaissances) ;
  • Efficacité d’accès à l’information : passage d’un « filtrage actif » à une « réception passive », l’utilisateur n’ayant plus besoin d’identifier « quel lien contient la réponse » ;
  • Taux de rebond : de 57 % (traditionnel) à 25 % (graphe de connaissances).

Scénario 2 : recherche d’informations sur une entreprise (par ex. « siège d’Apple »)

Chaîne de comportement en recherche traditionnelle(1,8 clic en moyenne, taux de rebond de 57 %):

L’utilisateur saisit le mot-clé→clique sur le site d’Apple (35 %) / Wikipédia (28 %) / média technologique (comme TechCrunch, 19 %) → cherche « contactez-nous » sur la page d’accueil du site (5 défilements en moyenne) ou localise le champ « siège » sur Wikipédia → confirme l’adresse (par ex. « Cupertino, Californie, États-Unis ») → ferme la page (57 %) ou passe à d’autres liens (43 %).

Chaîne de comportement avec le graphe de connaissances(0,9 clic en moyenne, taux de rebond de 39 %):

L’utilisateur saisit le mot-clé→consulte directement la carte (72 %) → fixe le champ « siège » (91 %) → clique sur le bouton « site officiel » de la carte (41 %) pour accéder directement au site officiel, ou sur « produit » (28 %) pour consulter la page iPhone 15.

Différences clés

  • Coût de localisation de l’information : de « faire défiler 5 fois » à « regarder 1 champ » ;
  • Conversion d’action : les boutons « site officiel » et « produit » de la carte guident directement l’utilisateur ; le taux de transfert est 2,3 fois supérieur à celui du « lien de la page d’accueil » de la recherche traditionnelle (tests internes Google) ;
  • Confiance dans la décision : lorsqu’une carte indique une « source autorisée » (comme Wikipédia), la confiance de l’utilisateur dans l’information augmente de 44 % (Moz, étude 2024).

Scénario 3 : recherche de produit (par ex. « prix de départ de l’iPhone 15 »)

Chaîne de comportement en recherche traditionnelle(temps moyen de consultation : 2 min 05 s):

L’utilisateur saisit le mot-clé→clique sur le site d’Apple (42 %) / Amazon (25 %) / média technologique (comme The Verge, 18 %) → cherche « iPhone 15 » sur la page « tarification » du site officiel (4 défilements en moyenne) ou compare les prix sur la page produit Amazon → note le prix de départ (par ex. « 799 dollars ») → ferme la page (68 %) ou continue à comparer (32 %).

Chaîne de comportement avec le graphe de connaissances(temps moyen de consultation : 28 s):

L’utilisateur saisit le mot-clé→consulte directement la carte (85 %) → observe les champs « prix de départ » et « date de sortie » (89 %) → clique sur le « lien d’achat » de la carte (65 %) pour aller directement vers le site officiel ou Amazon, ou clique sur « fonctions essentielles » (22 %) pour consulter des caractéristiques comme Dynamic Island.

Différences clés

  • Coût de comparaison des prix : de « comparer sur 3 pages » à « tout faire via 1 carte » ;
  • Vitesse de décision d’achat : de « plus de 10 minutes » à « moins de 30 secondes », avec une hausse du taux de commande de 31 % (plateforme d’analyse e-commerce Statista 2024) ;
  • Actualité de l’information : la carte met à jour en temps réel le « prix de départ » (par ex. lors d’ajustements promotionnels en 2024), évitant aux utilisateurs de manquer une offre à cause d’un retard d’information.
Pourquoi le graphe de connaissances est plus rapide

« Surcharge d’information » → « filtrage précis »

Une page de résultats de recherche traditionnelle contient en moyenne 10 liens, chaque lien comprenant 500 à 2 000 mots, mais les informations clés recherchées (comme « siège » ou « prix de départ ») peuvent être dispersées dans différents paragraphes, voire sur différents liens.

Le graphe de connaissances, grâce à l’extraction structurée + l’association sémantique, condense les informations essentielles en 5 à 8 champs, évitant à l’utilisateur de « chercher une aiguille dans une botte de foin » dans du texte redondant.

Par exemple, lorsqu’on recherche « ventes de Tesla en 2023 », la recherche traditionnelle impose de consulter 3 communiqués (mentionnant respectivement « 420 000 au T1 », « 460 000 au T2 », « 435 000 au T3 ») afin de reconstituer les données annuelles ;

alors que la carte du graphe de connaissances affiche directement « 1,84 million de ventes mondiales en 2023 », permettant à l’utilisateur d’obtenir l’information complète en 3 secondes.

« Intention floue » → « correspondance précise »

Lors d’une recherche, des formulations ambiguës (comme « la voiture de Musk ») peuvent conduire la recherche traditionnelle à retourner des résultats non pertinents (comme une biographie de Musk).

Le graphe de connaissances, grâce à l’analyse des relations entre entités, identifie les entités principales liées à « Musk » (Tesla, SpaceX) et en déduit l’intention de l’utilisateur (« le constructeur automobile à la création duquel Musk a participé »), pour afficher finalement les informations produit de Tesla.

Le livre blanc Google sur les technologies IA de 2023 indique que : le graphe de connaissances atteint 81 % de précision dans la compréhension des requêtes floues (contre seulement 57 % pour la recherche traditionnelle), et que la probabilité qu’un utilisateur ferme la page à cause d’une « information non pertinente » tombe de 42 % à 19 %.

« Manque de confiance » → « caution d’autorité »

Dans les résultats de recherche traditionnels, les utilisateurs ont du mal à évaluer la crédibilité de l’information (par exemple, un blog affirme « Tesla a vendu 2 millions de véhicules en 2023 », alors que le site officiel annonce « 1,84 million »).

Le graphe de connaissances, au moyen d’un mécanisme de validation multi-sources, n’affiche que des informations « cohérentes dans au moins 3 sources faisant autorité » (comme le site officiel, Wikipédia, des bases de données sectorielles) et mentionne sur la carte une « source autorisée » (par exemple « données issues du rapport annuel 2023 de Tesla »), ce qui augmente de 58 % la confiance de l’utilisateur dans l’information (étude utilisateurs Moz 2024).

Comment le graphe de connaissances « comprend » l’intention utilisateur

Du « matching de mots-clés » à la « compréhension sémantique »

Google analyse, via des modèles préentraînés comme BERT, « l’intention sémantique » de la requête utilisateur (par exemple, dans « où est le siège de Tesla », « siège » renvoie à un besoin de « localisation géographique », tandis que dans « prix de départ de l’iPhone 15 », « prix de départ » renvoie à un besoin de « prix »).

Ce type de modèle peut également reconnaître des « intentions implicites » — par exemple, si l’utilisateur recherche « la société de fusées de Musk », le modèle fera le lien « Musk-fondateur-SpaceX », au lieu de simplement faire correspondre la biographie de « Musk ».

Les tests Google de 2024 montrent que : la précision des modèles de reconnaissance d’intention est passée de 62 % en 2019 à 89 % en 2024, et la probabilité de rebond liée à une « intention mal comprise » a baissé de 34 %.

Du « texte non structuré » aux « champs lisibles par machine »

Le graphe de connaissances transforme, grâce à des technologies NLP (comme la reconnaissance d’entités et l’extraction d’attributs), les « textes non structurés » des pages web en « champs structurés » (par exemple « Tesla-siège-Texas »).

Par exemple, sur une page web, la phrase « Le siège de Tesla est situé à Austin, au Texas, aux États-Unis » sera extraite sous la forme :

  • Entité : Tesla
  • Attribut : siège
  • Valeur : Austin, Texas

La précision de cette extraction varie selon le type d’entité (92 % pour les entreprises, 85 % pour les personnes, 88 % pour les produits), mais elle est déjà suffisante pour soutenir l’affichage des cartes (livre blanc technique Google 2023).

Des « résultats statiques » aux « informations en temps réel »

Le graphe de connaissances garantit la synchronisation entre les informations de la carte et la réalité grâce à un mécanisme d’« exploration en temps réel + validation multi-sources ». Par exemple, après que Tesla a annoncé en 2023 « déplacer son siège au Texas », les robots de Google ont récupéré en 2 heures les reportages du site officiel, de Reuters et de Bloomberg, ont vérifié la cohérence des informations (le site officiel et Reuters concordant), puis ont mis à jour en 4 heures toutes les cartes du graphe de connaissances pour les recherches sur « Tesla ».

Les tests techniques de Google en 2024 montrent que : pour les entités très suivies (comme les entreprises du Fortune 500), le cycle de mise à jour est passé de « 1 fois par semaine » à un niveau « horaire », réduisant le retard de l’information reçue par l’utilisateur de « 3 jours » à « 2 heures ».

Comment le graphe de connaissances « restitue précisément » la réponse

Quand l’utilisateur recherche « production de la Gigafactory de Shanghai de Tesla en 2023 », la carte du graphe de connaissances de Google peut directement afficher : « production de l’usine de Shanghai en 2023 : 1,25 million de véhicules, soit 48 % de la capacité totale mondiale de Tesla ».

Principe technique

Le cœur du graphe de connaissances consiste à transformer du « texte non structuré » (comme les paragraphes et les phrases d’une page web) en « données structurées » (comme des triplets « entité-attribut-valeur »), puis à construire un réseau d’information grâce aux relations.

Ce processus repose sur la chaîne technique suivante (voir ci-dessous) :

Requête utilisateur → les robots de Google explorent le texte du web entier → le modèle NLP reconnaît les entités (par ex. « Tesla ») → extrait les attributs (par ex. « production de l’usine de Shanghai ») → relie d’autres entités (par ex. « capacité totale mondiale ») → valide la cohérence multi-sources → génère une carte structurée → classe et affiche

Étapes techniques

Reconnaissance d’entités (NER)

La reconnaissance d’entités est le « point de départ » du graphe de connaissances. Son cœur consiste à reconnaître des « entités nommées » (comme des entreprises, des personnes, des lieux) dans un texte non structuré et à en annoter le type.

Google s’appuie pour cela sur des modèles préentraînés comme BERT, dont les détails techniques sont les suivants :

  • Principe du modèle : BERT (Bidirectional Encoder Representations from Transformers), grâce à l’apprentissage bidirectionnel du contexte, peut comprendre que « Tesla » dans « usine Tesla de Shanghai » est une « entité d’entreprise », alors que dans « bobine Tesla », il s’agit d’un « concept scientifique », ce qui permet d’annoter précisément le type d’entité (Organization vs ScientificConcept).
  • Données de précision : le livre blanc technique de Google de 2023 indique que le modèle BERT atteint une précision de 92 % pour la reconnaissance des entités d’entreprise (sur des noms d’entreprise normalisés), et une précision de 85 % sur des constructions complexes (comme « fondé conjointement par XX et YY »), car « fondation conjointe » peut impliquer plusieurs entités.
  • Exemple de cas : dans la phrase « En 2003, Martin Eberhard et Marc Tarpenning ont fondé Tesla Motors à Palo Alto », le modèle BERT reconnaît :
    • Entité 1 : Martin Eberhard(Person
    • Entité 2 : Marc Tarpenning(Person
    • Entité 3 : Tesla Motors(Organization
    • Entité 4 : Palo Alto(Location

Extraction d’attributs

L’objectif de l’extraction d’attributs est d’analyser les relations sémantiques entre les entités et d’extraire des paires « attribut-valeur » (par exemple « Tesla-date de création-2003 »).

Google combine pour cela « l’analyse syntaxique de dépendance » et des « modèles de règles » :

  • Détails techniques :
    • Analyse syntaxique de dépendance : elle identifie les relations grammaticales entre les mots dans la phrase (par exemple « fonder » est un verbe, « Tesla » est le complément d’objet, « 2003 » est un complément temporel), permettant ainsi d’extraire « Tesla-date de création-2003 ».
    • Modèles de règles : pour les attributs fréquents (comme « date de création » ou « siège »), des règles sont prédéfinies (par exemple, le contenu situé après « fondé en » ou « le siège est situé à » est considéré comme la valeur de l’attribut), afin de compenser les limites du modèle sur les structures complexes.
  • Données de précision : les tests internes de Google en 2024 montrent que l’extraction d’attributs atteint une précision de 88 % pour la « date de création » d’une entreprise (dans des formulations normalisées), mais seulement 72 % pour des attributs ambigus comme « fondateur » (par exemple « cofondateur » ou « investisseur initial »), en raison de la variété des formulations.
  • Exemple de cas : dans la phrase « En 2004, Elon Musk a investi 6,3 millions de dollars dans Tesla et est devenu son plus grand actionnaire », l’analyse de dépendance reconnaît « investir » comme verbe, « Tesla » comme objet, « Elon Musk » comme agent et « 6,3 millions de dollars » comme montant ; elle extrait alors les paires « Tesla-investisseur-Elon Musk » et « Tesla-montant du financement-6,3 millions de dollars ».

Validation multi-sources

La validation multi-sources est l’« étape de contrôle qualité » du graphe de connaissances. Son principe fondamental est de garantir qu’un même attribut d’une même entité soit cohérent dans au moins 3 sources faisant autorité.

Google met cela en œuvre au moyen des règles suivantes :

Hiérarchisation des sources faisant autorité(voir le tableau ci-dessous):

Type de source Poids (crédibilité) Exemple
Site officiel 90 Site officiel de Tesla(Tesla.com)
Encyclopédie de référence 85 Wikipédia(article Tesla, Inc.)
Base de données gouvernementale / sectorielle 80 Dépôts d’entreprise auprès de la SEC américaine, Crunchbase
Média à forte autorité 70 New York Times, TechCrunch
Blog personnel / forum 30 Blog technologique personnel, fil de discussion Reddit

Logique de validation

  • si un même attribut est cohérent dans 3 sources faisant autorité ou plus (erreur ≤5 %), il est marqué comme « hautement crédible » et intégré ;
  • si seulement 2 sources concordent ou s’il existe une contradiction (par exemple le site officiel indique « fondée en 2003 » et Wikipédia « fondée en 2002 »), il est marqué comme « faiblement crédible » et temporairement non intégré ;
  • si toutes les sources se contredisent, l’intégration est directement refusée.

Données à l’appui : le « Guide d’inclusion dans le graphe de connaissances » de Google 2023 montre que les conflits d’attributs constituent la cause la plus fréquente de rejet (38 %), suivis par « l’autorité insuffisante de la source (par exemple simple blog personnel, 25 %) » et les « erreurs de format de balisage (par exemple erreurs de date, 19 %) ».

Mises à jour à l’échelle horaire

  • Exploration en temps réel : pour les entités très suivies (comme les entreprises du Fortune 500 ou les produits populaires), la fréquence d’exploration de Googlebot est passée de « 1 fois par semaine » à « 1 fois par heure » (explication de la mise à jour de l’algorithme de recherche Google 2024). Par exemple, lors du lancement du Cybertruck en octobre 2023, les robots ont récupéré dans les 15 minutes suivant la fin de la présentation les communiqués du site officiel, de TechCrunch et de Reuters.
  • Validation rapide : les nouvelles informations doivent passer par une « validation croisée multi-sources » avant d’être affichées. Par exemple, lorsque le site officiel de Tesla a annoncé « 435 000 livraisons au T3 2023 », Google a simultanément récupéré le site officiel (poids 90 %), le rapport 10-Q de la SEC (85 %) et un article de Bloomberg (70 %) ; si les trois sources concordent (erreur ≤2 %), la mise à jour se fait immédiatement.
  • Rapidité de mise à jour : les tests techniques de Google en 2024 montrent que le cycle moyen de mise à jour de l’information pour les entités très suivies est de 4,2 minutes (du moment où la validation s’achève jusqu’à la mise en ligne de la carte), contre 18 minutes pour les entités ordinaires. Par exemple, après l’annonce du prix Nobel de physiologie ou médecine 2023, Google a mis à jour la carte de « Katalin Karikó » seulement 5 minutes après confirmation de la liste, en affichant l’attribut « lauréate du prix Nobel 2023 ».

Comment faire inclure un contenu dans le graphe de connaissances de Google

Pour qu’un contenu soit inclus dans le graphe de connaissances de Google, il faut remplir trois conditions essentielles :

  • Balisage des attributs essentiels avec Schema.org(les entreprises / personnes / produits doivent baliser des champs comme le nom, la date de création, etc.)
  • Assurer la cohérence entre plusieurs sources(au moins 3 sources faisant autorité, comme le site officiel et Wikipédia, ne doivent présenter aucun conflit d’attributs)
  • Valider via les outils de Google(utiliser Google Search Console pour surveiller l’état d’indexation)

Les données montrent que la probabilité d’inclusion d’un site officiel d’entreprise balisé avec Schema est supérieure de 47 % à celle d’un site non balisé (Moz 2024), mais que les conflits d’attributs (comme une contradiction entre la « date de création » du site officiel et celle de Wikipédia) conduisent à un taux de rejet de 38 % (Google 2023).

Balisage des attributs essentiels avec Schema.org

Google ne peut pas « comprendre » directement le texte d’une page web ; il faut donc utiliser le balisage de données structurées Schema.org pour préciser « qui c’est » et « quels attributs il possède ».

Schema.org est une norme de balisage universelle couvrant plus de 1000 types d’entités, comme les entreprises, les personnes et les produits ; c’est le « ticket d’entrée » pour l’intégration au graphe de connaissances.

Les « attributs obligatoires » selon les types d’entités (voir le tableau ci-dessous)

Type d’entité Attributs essentiels obligatoires (exemples) Rôle du balisage Données d’appui (Google 2023)
Entreprise / organisation name(nom)、foundingDate(date de création)、headquarters(siège)、industry(secteur) Aide Google à identifier les « fondamentaux de l’entreprise » 82 % des cartes d’entreprise contiennent les 4 premiers attributs
Personne name(nom)、birthDate(date de naissance)、nationality(nationalité)、jobTitle(profession) Aide Google à déterminer « l’identité de la personne » 75 % des cartes de personnes comportent une information de profession
Produit / service name(nom)、releaseDate(date de sortie)、brand(marque)、offers(fonctionnalités proposées) Permet un « affichage précis des informations produit » 68 % des cartes produit comportent des informations de marque

Exemple pratique(balisage sur le site officiel d’une entreprise):

<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“headquarters”: {
“@type”: “Place”,
“name”: “Austin, Texas, USA”
},
“industry”: “Electric Vehicles”
}
</script>

Ce balisage transmet directement à Google l’information centrale suivante : « Tesla est une entreprise, fondée en 2005, dont le siège se trouve à Austin, au Texas, et qui appartient au secteur des véhicules électriques. »

« Erreurs courantes » dans le balisage

  • Sur-balisage : il n’est pas nécessaire de baliser tous les attributs (par exemple, le « nombre d’employés » n’est pas obligatoire pour une entreprise) ; il faut privilégier les « attributs essentiels » correspondant aux besoins les plus fréquents des utilisateurs (comme le « prix de départ » d’un produit) ;
  • Erreurs de format : les dates doivent être au format « YYYY-MM-DD » (par exemple « 2003-04-01 »), et non « 2003/4/1 » ; les coordonnées doivent être au format « latitude,longitude » (par exemple « 30.2672,-97.7431 ») ;
  • Conflits multilingues : si le site officiel comporte plusieurs versions linguistiques, chaque langue doit être balisée séparément (par exemple la version anglaise avec inLanguage: "en"), afin d’éviter toute confusion pour Google.

Exhaustivité des attributs et exactitude des relations

Exhaustivité des attributs

Les statistiques de Google en 2024 montrent que : les entités couvrant plus de 8 attributs essentiels ont une probabilité d’inclusion supérieure de 62 % à celles qui n’en couvrent que 3.

En prenant l’exemple d’une « entreprise », il est recommandé, en plus des attributs obligatoires, d’ajouter :

  • Attributs d’intérêt utilisateur : numberOfEmployees(nombre d’employés)、foundingLocation(lieu de fondation);
  • Attributs dynamiques : latestRevenue(dernier chiffre d’affaires)、notableProduct(produit vedette);
  • Attributs liés : parentOrganization(maison mère)、subsidiary(filiale)。

Cas concret : une startup technologique qui ne balisait que « nom » et « date de création » n’a pas été incluse ; après avoir ajouté « nombre d’employés », « CEO » et « produit vedette », elle a été couverte par le graphe de connaissances en moins de 3 mois.

Exactitude des relations

Les relations sont le « squelette » du graphe de connaissances ; il faut clarifier les liens sémantiques entre entités (comme « fondateur », « CEO », « produit »).

Google vérifie la cohérence des relations grâce à des modèles d’analyse sémantique, et les erreurs fréquentes comprennent :

  • Erreur de type de relation : baliser un « CEO » comme « fondateur » (par exemple, Musk est le CEO de Tesla, mais le fondateur initial est Eberhard) ;
  • Relations confuses : baliser « Tesla-produit-Model 3 » mais ne pas baliser « Model 3-usine de production-Gigafactory de Shanghai » (ainsi, si l’utilisateur cherche « où est produit le Model 3 », la relation ne peut pas être établie) ;
  • Relations redondantes : baliser plusieurs fois la même relation (par exemple « Tesla-fondateur-Eberhard » à répétition), ce qui peut entraîner une baisse de pondération par Google.

Gestion des sources

Google impose des exigences extrêmement élevées en matière d’exactitude de l’information : un même attribut d’une même entité doit être cohérent dans au moins 3 sources faisant autorité, sinon il est marqué comme « faiblement crédible ».

Hiérarchisation des sources faisant autorité (voir le tableau ci-dessous)

Type de source Autorité (crédibilité) Exemple Priorité Google
Site officiel ★★★★★ Tesla.com La plus élevée
Encyclopédie de référence ★★★★☆ Wikipédia(article Tesla, Inc.) Élevée
Base gouvernementale / sectorielle ★★★★ Dépôts SEC des entreprises américaines, Crunchbase Moyenne à élevée
Média à forte autorité ★★★☆ New York Times, TechCrunch Moyenne
Blog personnel / forum ★★ Blog technologique personnel, discussion Reddit Faible

Comment résoudre les contradictions entre sources

Si des attributs diffèrent d’une source à l’autre (par exemple le site officiel écrit « fondée en 2003 », Wikipédia « fondée en 2002 »), Google applique la logique suivante :

  • Étape 1 : privilégier la source la plus autorisée(site officiel > Wikipédia > médias);
  • Étape 2 : si des sources autorisées se contredisent (par exemple site officiel et Wikipédia), demander des « preuves complémentaires » (comme un certificat d’immatriculation de l’entreprise ou des états financiers) ;
  • Étape 3 : si le conflit n’est pas résolu dans les 30 jours, l’information est marquée comme « faiblement crédible » et reste temporairement non intégrée.

Outil d’assistance : Google Search Console

Google Search Console(GSC)est l’« outil officiel de surveillance de l’inclusion dans le graphe de connaissances » proposé par Google, permettant de consulter en temps réel le statut d’intégration et d’identifier les problèmes.

Fonctions clés:

  • Surveillance de l’état d’indexation:dans « Indexation » → « Couverture », vérifier si l’entité a été incluse (avec les statuts « indexée » ou « exclue ») ;
  • Rapport de résultats enrichis:dans « Résultats enrichis », consulter les données d’affichage des cartes du graphe de connaissances (comme le nombre de clics et d’impressions) ;
  • Diagnostic d’erreurs:dans « Erreurs », rechercher les erreurs de balisage (comme les erreurs de format Schema) et les conflits de sources (comme les alertes de non-cohérence des attributs).

Conseils d’optimisation:

  • Vérification régulière:se connecter chaque semaine à la GSC et consulter les raisons de « non-affichage » dans les « Résultats enrichis » (par exemple « attribut manquant » ou « conflit de sources ») ;
  • Retour sur les données:si les informations de la carte sont erronées (par exemple un « siège » mal affiché), soumettre une « demande de correction de données » via la GSC ;
  • Analyse concurrentielle:rechercher les marques concurrentes, examiner les attributs affichés dans leurs cartes du graphe de connaissances, et compléter vos propres champs essentiels manquants.

L’ère du graphe de connaissances est déjà là ; votre contenu mérite d’être « vu » de manière plus efficace — il est temps d’agir dès maintenant.

滚动至顶部