Le brevet Google que personne ne lit — et qui explique pourquoi les LLMs vous ignorent
En juin 2024, Google a obtenu le brevet US12813887B2. Personne dans le SEO français n'en parle. Il devrait.
Ce brevet décrit un mécanisme de scoring qui mesure la quantité d'information nouvelle dans un contenu. Pas sa qualité rédactionnelle. Pas son autorité. Sa nouveauté. Et ce mécanisme explique pourquoi certains contenus sont cités par les LLMs et d'autres ignorés.
Ce que dit le brevet
Brevet US12813887B2
Accordé juin 2024Méthode d'attribution d'un score de gain informationnel (0-1) à chaque contenu indexé, mesurant la quantité d'information nouvelle par rapport au corpus existant.
Le principe est brutal dans sa simplicité. Le brevet décrit une méthode pour attribuer à chaque contenu indexé un score entre 0 et 1, appelé Information Gain Score.
- Score 0 : le contenu reformule ce qui existe déjà dans l'index. Même si c'est bien écrit. Même si c'est long. Même si c'est optimisé pour le SEO.
- Score 1 : le contenu apporte une donnée, un angle ou une observation que l'index ne contenait pas.
Entre les deux, un continuum. La plupart des contenus se situent quelque part au milieu — mais la distribution n'est pas uniforme. La grande majorité des pages web se concentrent près de 0. Les contenus véritablement originaux sont rares, et c'est précisément ce qui leur donne de la valeur dans le modèle du brevet.
Le point clé — et ce que la plupart des résumés du brevet omettent — c'est la base de comparaison. Google ne compare pas votre article aux 10 résultats de la première page. Il compare votre contenu à l'intégralité du corpus indexé sur le sujet. Chaque phrase, chaque fait, chaque chiffre est évalué contre tout ce qui a déjà été dit.
Concrètement : si 200 articles expliquent déjà les "meilleures pratiques SEO en 2026", le 201e part avec un handicap structurel. Peu importe la qualité de la rédaction. Le brevet ne mesure pas l'effort — il mesure le delta informationnel.
C'est un changement de paradigme. Pendant 20 ans, le SEO récompensait la complétude : couvrir tous les angles, répondre à toutes les questions. L'Information Gain récompense l'inverse : dire ce que personne d'autre ne dit.
Et le timing n'est pas anodin. Le brevet a été accordé en juin 2024 — exactement au moment où les LLMs grand public (ChatGPT, Claude, Perplexity) commençaient à devenir des sources de trafic mesurables. Google a formalisé un mécanisme qui distingue le signal du bruit à l'échelle de milliards de pages. Les LLMs reproduisent mécaniquement ce tri.
Ce que ça change pour les LLMs
Le brevet concerne l'index Google. Mais la tension qu'il révèle dépasse le moteur de recherche : qualité ne signifie pas nouveauté. Un contenu parfaitement rédigé, parfaitement structuré, parfaitement optimisé — mais qui dit la même chose que 50 autres pages — n'apporte aucun delta informationnel.
C'est contre-intuitif pour quiconque a fait du SEO ces dix dernières années. On a appris à produire du contenu "complet", à couvrir tous les mots-clés, à répondre à toutes les questions associées. Le résultat : des milliers de pages quasi-identiques sur chaque sujet. Pour Google, c'est gérable — il les classe par autorité. Pour un LLM, c'est inutile — il n'a besoin de l'information qu'une seule fois.
Les LLMs comme ChatGPT, Claude ou Perplexity ne crawlent pas le web en temps réel pour chaque requête. Ils s'appuient sur des corpus pré-entraînés et sur des systèmes de retrieval (RAG) qui puisent dans les index existants — souvent ceux de Google ou Bing. Le mécanisme est transitif : si un contenu a un IG faible, il est moins visible dans l'index ; les systèmes de retrieval des LLMs le trouvent moins souvent ; ils ne le citent pas.
Aucune preuve technique directe ne lie le score IG aux réponses des LLMs. Mais le mécanisme est cohérent : index visibility → RAG retrieval → citation. Et les données terrain le confirment.
Si un LLM a déjà vu l'information 50 fois, il ne vous citera pas une 51e fois. Apportez ce que personne d'autre ne peut dire.
La preuve terrain
Lors du SEO Summit 2026, Julien Bismuth et Olivier de Segonzac ont présenté des données issues de l'analyse de 17,2 millions de citations LLM, sur la base du dataset Yext Q4 2025. Trois observations qui s'éclairent à travers le prisme de l'Information Gain.
56% des sources citées par les LLMs sont des contenus tiers — pas les pages des marques elles-mêmes. Forums, comparateurs, sites d'avis, articles de presse. Le mécanisme : une page marque répète ses propres specs, que 50 concurrents répètent aussi. IG proche de zéro. Un comparatif tiers qui met en regard 5 produits apporte, par construction, une information que chaque page produit individuelle ne contient pas.
Les contenus multi-marques sont systématiquement préférés aux contenus mono-marque. Ce n'est pas un biais de neutralité — c'est un biais d'information. Un article qui compare trois solutions apporte plus de delta informationnel qu'une page qui décrit une seule solution. Le brevet explique pourquoi.
Les Query Fan-Outs dépassent 50% en anglais, même pour des requêtes d'utilisateurs francophones. Quand un LLM élargit sa recherche à l'anglais, la base de comparaison explose. L'Information Gain d'un contenu français générique tombe mécaniquement — parce que le corpus anglais a déjà couvert le sujet bien plus densément. Pour les sites français, c'est un double handicap : non seulement le corpus francophone est plus petit (donc les LLMs cherchent ailleurs), mais quand ils cherchent en anglais, votre contenu est en compétition avec un index massivement plus dense.
Trois observations. Un seul mécanisme sous-jacent : le delta informationnel. Les données ne prouvent pas le brevet — elles en sont la conséquence observable.
Ce qui a un Information Gain élevé — et ce qui n'en a pas
| IG proche de 0 (ignoré) | IG proche de 1 (cité) | |---|---| | "Top 10 outils SEO 2026" | Étude propriétaire avec données originales | | Fiche produit = specs copiées du fabricant | FAQ issues du SAV + avis clients réels | | Article IA reformulant 3 sources existantes | Test comparatif avec méthodologie documentée |
La colonne de gauche, c'est ce que la majorité des sites produisent. La colonne de droite, c'est ce que les LLMs citent.
Bismuth utilise le terme facettes situationnelles pour désigner les angles qui viennent du vécu utilisateur, pas de la fiche produit. "Quel outil pour une PME sans budget" apporte plus d'Information Gain que "les fonctionnalités de l'outil X" — parce que le premier angle est ancré dans un contexte que les pages officielles ne couvrent jamais.
Le fossé est là. Les marques décrivent des specs. Les utilisateurs décrivent des situations. L'écart entre les deux, c'est précisément là où l'Information Gain est le plus élevé.
Pour un site e-commerce, ça signifie que les fiches produits copiées-collées depuis le catalogue fabricant ont un IG structurellement nul. Les retours d'expérience, les cas d'usage concrets, les comparaisons honnêtes — c'est là que se trouve le delta. Pas dans la rédaction. Dans l'information elle-même.
Et votre site ?
L'Information Gain n'est pas une 8e couche du web agentique. C'est le principe qui traverse les 7 couches.
Un robots.txt ouvert (couche 2) expose votre contenu aux agents IA. Si ce contenu a un IG de 0, les agents le trouvent, le lisent — et ne le citent pas. L'accès sans nouveauté, c'est de la visibilité sans citation.
Un Schema.org complet (couche 1) sur des entités identiques à celles de 50 concurrents produit un IG garanti de 0. La structure sans différenciation ne suffit pas.
Chaque couche technique que vous mettez en place amplifie votre contenu. Mais elle n'amplifie que ce qu'il y a à amplifier. Si le signal est nul, l'amplification ne change rien.
Le point de départ : identifier où votre site apporte réellement un delta informationnel — et où il se contente de reformuler ce que l'index contient déjà. Pas en réécrivant mieux. En apportant ce que personne d'autre n'a.
Pour les sites français, le handicap est structurel : un corpus francophone plus petit pousse les LLMs à chercher en anglais, où l'IG de votre contenu est écrasé par un index massivement plus dense. L'originalité n'est pas un avantage — c'est une condition de survie.
Pour le cadre complet des 7 couches, lire Les 7 couches du web agentique.
Votre site est-il pret pour les agents IA ?
Testez gratuitement en 30 secondes. Score + 3 recommandations.
Tester mon siteVotre site est-il pret pour les agents IA ?
Testez gratuitement en 30 secondes. Score + 3 recommandations.
Tester mon siteVeille Agentic SEO
1 email/semaine. Pas de spam.