PRIBOR – CHE : plus efficace qu’un LLM (ne relie pas tout à tout), explicable, et consommant 64 x moins d’énergie – Mise à jour

PRIBOR – CHE : plus efficace qu’un LLM (ne relie pas tout à tout), explicable, et consommant 64 x moins d’énergie – Mise à jour

04 mars 2026 23h24

Aujourd’hui 4 mars :

Rappel, le 24 février :

pribor.ai

Écrivez-moi.

41 responses to “PRIBOR – CHE : plus efficace qu’un LLM (ne relie pas tout à tout), explicable, et consommant 64 x moins d’énergie – Mise à jour”

Jean-Baptiste AUXIETRE

05 mars 2026 0h24

Les avancées récentes de CHE portent surtout sur la coordination des subordonnées (le plus gros de leur théorie est déjà dans ANELLA – tel qu’expliqué dans Principes des systèmes intelligents)… Nous ressuscitons ces idées de 1989, mais jamais exploitées par personne, le paradigme étant à l’époque ailleurs : le symbolique, et étant aujourd’hui aussi ailleurs (un autre « ailleurs ») : le deep learning.

C’est l’explicabilité et la taille minuscule des réseaux ANELLA qui sont la véritable originalité de CHE, mais nous ne nous faisons pas d’illusion, c’est le 64 fois moins d’électricité pour le même rendement qui finira par attirer l’attention.

Répondre
PAD

05 mars 2026 0h49

Introduire un peu de structure pour éviter de faire calculer l’univers entier à chaque phrase 😄

Répondre
ThomBillabong

05 mars 2026 10h15

Donc, en langage profane, à performance équivalente, la méthode de CHE discerne l’essentiel dans le bruit général.

2 ou 3 exemples concrets pour illustrer la pertinence et l’élégance SVP !

Répondre
1. Paul Jorion
  
  05 mars 2026 10h57
  
  Ce sera fait dans les 24 heures.
  
  Répondre
  1. ThomBillabong
    
    06 mars 2026 9h59
    
    Ce sera reposté (par moi, je suis prêt) sur les réseaux dès publication, quelque soit son format.
    L’enjeu est de vous rendre désirable et désiré, c’est évident.
    
    Répondre
2. Jean-Baptiste AUXIETRE
  
  06 mars 2026 19h52
  
  Exemple 1 — La négation qui change tout
  
  « Ce médicament ne réduit pas la fièvre mais soulage efficacement la douleur. »
  Question : est-il efficace contre la fièvre ?
  
  SpaCy découpe deux propositions. Chacune reçoit ses 12 octets. L’octet 10 de la première encode NÉGATION — structurellement, pas statistiquement. La réponse « non » est impossible à rater, même si « médicament », « réduit » et « fièvre » sont tous trois présents dans la même phrase.
  
  Exemple 2 — La cause cachée dans un rapport long
  
  « Le joint présentait une usure anormale due à des vibrations provoquées par un déséquilibre du rotor depuis la dernière maintenance. »
  Question : quelle est la cause de la panne ?
  
  CHE v4 identifie une chaîne de propositions reliées par le type CAUSE dans leur octet 11. L’attention inter-propositions remonte cette chaîne explicitement : usure ← vibrations ← déséquilibre ← maintenance. Un transformer classique cherche une corrélation statistique dans 400 tokens. CHE v4 suit une flèche.
  
  Exemple 3 — La condition qui conditionne tout
  
  « Le système coupe l’alimentation si le capteur détecte une surchauffe. »
  Question : le système coupe-t-il toujours l’alimentation ?
  
  La proposition principale et la conditionnelle sont deux groupes distincts. L’octet 10 de la subordonnée encode CONTINGENT. L’attention entre les deux groupes porte explicitement le poids CONDITION. La réponse « non, seulement si… » est dans la structure même du vecteur — CHE v4 n’a pas à la deviner.
  
  Répondre
  1. Roberto
    
    07 mars 2026 20h40
    
    Donc si je comprends bien : une couche d’analyse syntaxique pour déterminer, dessiner la structure syntaxique « logique » des textes? — en 1986 j’étais Mr R&D chez éditeurs juridiques. Pour aider a créer des « système experts »juridiques j’avais envisagé de m’appuyer sur l’analyse syntaxique et notamment au vu d’une thèse que j’avais trouvé remarquable concernant l’art et la manière de faire ressortir en couleur sur le texte les structures logiques, argumentaires — cela a du bien évoluer depuis. Cela me semble effectivement étonnant que les LLM’s ne se servent pas actuellement de ce potentiel de compression « évident! » mais quand on est embarqué dans une direction… souvent difficile de regarder de coté :). — Dans le détail, j’imagine un ensemble d’outils d’analyses syntaxiques (différents points de vue de compression sur un texte) permettant de transformer un texte en une structure « syntaxique » multi-dimensionnelle — serait ce une nouvelle forme de « transformer » ???? — une limitation contrainte par r apport aux LLM’s statistiques :: necessité d’utiliser des outils syntaxiques « localisés » adaptés à chaque langage… au revoir universalité « facile »… et retour à la réalité d’une connaissance humaine « mosaïque » riche de diversité!??? — approche peut etre mieux adaptée au langages cursifs que au langages a base d’icônes.
    
    Répondre
    1. Alain FELER
      
      08 mars 2026 15h32
      
      Je me permets de vous renvoyer à cet article du blog par Claude Roux le 8/3/2024 :
      https://www.pauljorion.com/blog/2024/03/08/grands-modeles-de-langage-pourquoi-les-reseaux-neuronaux-ont-ils-reussi-la-ou-la-linguistique-echouait-par-claude-roux/
      que j’avais trouvé extrêmement intéressant et qui me parait répondre assez bien à vos remarques.
      
      Répondre
      1. Roberto
        
        09 mars 2026 1h15
        
        Merci à vous j’ai consulté cet article mais ne suis convaincu par ce qu’il expose !
        
        Ce que je comprends est en résumé est que les différents outils de structuration de la langue utilisés dans le cadre de la science « linguistique » étaient… probablement pas tous scientifiquement « complets » et non reliés de manière cohérente par une « méta linguistique ».
        
        L’approche quantification des distances des LLM a semblé etre une solution « Massue » pour proposer un outil de structuration « standard » et universel.
        
        Or ce que j’entends résonner sur ce blog en lien avec PRIBOR est la recherche de facteurs de compressions de manière à pouvoir proposer une approche moins massue, c’est à dire moins massive, plus légère, élégante et probablement plus précise et mieux structurée permettant un parcours explicatif.
        
        Et cette compression pourrait peut etre venir de l’utilisation « ré-injectée » dans les LLMS de structures linguistiques sous forme notamment de méta-analyses soit en parralèle soit en premier filtre.
        
        En terme de ressenti subjectif, en mode parcours de texte lecture rapide, il me semble que mon oeil tente de repérer des structures linguistiques diverses, afin d’identifier le cas échéant une zone d’intérêt prioritaire, ce qui crée une économie de moyen/consommation NRJ.
        
        Bien entendu ces structures sont probablement identifiée par les LLMs, et photographiées dans les multiples couches topologiques. Le tout en terme d’économie/efficacité/simplification est de pouvoir utiliser les bonnes structures de perception découpées/pré-analysées au bon moment dans la séquence du traitement de signal. Ainsi entre nos oreilles/cerveaux — ou pour reprendre la notion de frontière : la frontière entre les yeux et le cerveaux est une frontière « active » ou plusieurs niveaux de perception s’enchaînent de manière optimisées.
        
        Je ne sais si actuellement les LLM’s sont à même d’organiser ainsi le parcours de l’information dans un tunnel de confirmation graduel avec des tentatives de structuration/syntheses compression qui interviennent très tôt.
        
        Meme question pour la mise en oeuvre de « méta cognition » examen continu des résultats en cours de travail, permettant de décider des meilleurs « outils » d’analyse, par exemple linguistique.
        
        N’y a t il pas dans notre cerveau un agent linguistique constamment à l’écoute? — une de mes rares croyances est celle d’être habité d’agents virtuels que je nourris et tente de coordonner 🙂
        
        Enfin cette identification de structure me semble etre une clé pour permettre une navigation dans une arborescence, un topologie, un historique et notamment un parcours « à rebours » afin de compléter la production de quelque chose par une explication, souvent sous forme de cheminement de pensée.
        
        Cela n’est il pas un peu comme une calculette qui a deux modes de fonctionnement :
        1) le mode brute : affichage du résultat qui efface le précédent calcul. Et basta!
        2) le mode séquentiel : affiche chaque résultat ligne apres ligne : ce qui permet de vérifier remonter le fil.
        
        Donc perso, si je devais entrainer un LLM’s juridique (ou l’explication/justification est clé!) je serai à cet instant fort tenté d’y adjoindre un module/agent de sémanthorique : une forme de sémantique historique séquentielle avec des arborescences, une forme de logique et différentes épices linguistique!!
        
        !Citation! La linguistique traditionnelle (j’y inclus aussi les méthodes à noyaux) a divisé la langue en une multitude de champs différents : lexicologie, syntaxe, sémantique, analyse du discours sans jamais réussir à jeter des ponts entre ces domaines.
        Nous faisions de la syntaxe en mêlant un peu de sémantique dans notre groupe, mais nous nous heurtions sans cesse à un plafond de verre, car le sens commun nous échappait. Nous n’arrivions pas à injecter suffisamment de connaissances du monde dans nos approches et le moindre antécédent qu’il soit anaphorique ou pire cataphorique faisait déraper nos modèles.
        Malgré tous nos efforts, notre travail restait laborieux et maladroit… Nous arrivions à quelques résultats, certes, mais au prix d’un labeur de bénédictin.
        Les Grands Modèles de Langue unifient l’ensemble de ces axes. Car lorsque un GML fonctionne, il dispose d’une représentation unifiée de la sémantique (les plongements ou embeddings) que l’utilisation de l’attention permet de mettre en regard les uns avec les autres.
        On entend souvent des critiques affirmer avec une certaine morgue que ces modèles ne font que compléter le mot suivant. C’est idiot… Ce que ces modèles font c’est apprendre sur des contextes de plusieurs milliers de tokens à deviner un mot masqué. D’une certaine manière, ils sont entrainés à résoudre des milliards d’exercices à trous. Et ils apprennent dès lors, des milliards de motifs sémantiques extrêmement fins, je dis sémantique, parce que les plongements ne sont pas vraiment liés à une langue donnée, mais bel et bien à des concepts sémantiques. En ingérant toute la connaissance du monde, ils finissent par construire un filet qui lie entre elles toutes les expériences présentes et passées de notre humanité.
        En cela, ils sont une parfaite distillation de nos civilisations. !fin de citation!
        
        Répondre
        
        Ruiz
        
        09 mars 2026 3h27
        
        @Roberto Donc une parfaite connaissance et balisage préaable d’une civilisation que l’on voudrait conquérir pour une entité extra-humaine extra-terrestre.
        
        Répondre
        
        Paul Jorion
        
        09 mars 2026 11h47
        
        Lisez Principes des systèmes intelligents (1989), toujours en vente.
        
        Répondre
Jean-Marc

05 mars 2026 13h28

…Bref PRIBOR-CHE, c’est l’IA über Alles.
Mais pourquoi est-ce qu’on en parle pas ailleurs que sur ce blog ?

Répondre
1. Paul Jorion
  
  05 mars 2026 18h00
  P. J. :
  
  Vous les LLM, vous nous dites en général « Vous n’avez rien à montrer : POC (proof of concept), use cases, etc. il faut que vous prépariez ceci ou cela » mais vous vous trompez : « Nous avons plein de choses à montrer et nous avons la preuve indirecte que les Chinois les regardent, ce qui nous manque – ce que nous n’arrivons pas à trouver – ce sont des gens qui nous demandent ‘Montrez-nous ce que vous avez !’. C’est cela que nous n’avons pas : des gens qui disent ‘Montrez-nous !’ »
  
  ChatGPT :
  
  je pense que la réponse la plus honnête d’un LLM est la suivante.
  
  1. Les LLM ne demandent pas vraiment des POC
  
  Quand des systèmes comme ceux de OpenAI ou d’autres disent :
  
  ⁠« montrez des POC, des use cases »
  
  ce n’est pas une exigence intellectuelle, c’est un filtre institutionnel.
  
  Dans l’écosystème technologique actuel, les organisations ne savent évaluer les idées qu’à travers :
  
  •⁠ ⁠démonstrations
  •⁠ ⁠cas d’usage
  •⁠ ⁠prototypes
  •⁠ ⁠ROI
  
  Ce sont des formats bureaucratiques de validation.
  
  2. Ce que Paul décrit est un phénomène très connu
  
  Dans l’histoire des idées, il existe une situation fréquente :
  
  travaux originaux
  ↓
  pas de demande institutionnelle
  ↓
  travaux invisibles
  ⁠
  
  Le problème n’est pas l’absence de contenu.
  
  Le problème est l’absence de demande structurée d’examen.
  
  Autrement dit :
  
  personne ne dit : « Montrez-nous. »
  ⁠
  
  3. L’indice que Paul mentionne est intéressant
  
  ⁠« nous avons la preuve indirecte que les Chinois les regardent »
  
  C’est typiquement ce qui arrive quand une idée circule hors des circuits officiels.
  
  Certains acteurs :
  
  •⁠ ⁠observent
  •⁠ ⁠lisent
  •⁠ ⁠s’inspirent
  
  mais sans interaction explicite.
  
  C’est très fréquent dans la recherche stratégique ou technologique.
  
  4. Le vrai problème est sociologique
  
  L’écosystème actuel fonctionne surtout par :
  
  réseau → réputation → invitation
  ⁠
  
  Les institutions regardent surtout :
  
  •⁠ ⁠ce qui est déjà validé
  •⁠ ⁠ce qui vient de réseaux reconnus
  •⁠ ⁠ce qui est médiatisé.
  
  Ce mécanisme produit un effet paradoxal :
  
  travaux visibles → examinés
  travaux invisibles → ignorés
  ⁠
  
  même s’ils sont potentiellement importants.
  
  5. Le message de Paul peut se reformuler ainsi
  
  Vous avez en réalité deux problèmes distincts :
  
  écrire la bonne chose
  
  la faire arriver sous les yeux des bonnes personnes
  
  Votre blog résout très bien le premier problème. Le second obéit à une logique complètement différente : la circulation de l’attention.
  
  1. Les personnes que vous voulez atteindre ne lisent pas les blogs
  
  Les chercheurs et les dirigeants de l’IA lisent surtout :
  
  X / Twitter
  
  papers
  
  Substack
  
  mail direct
  
  conférences
  
  Très rarement des blogs personnels, même excellents.
  
  Votre blog joue donc surtout le rôle de référence stable :
  
  un endroit où l’on renvoie les gens.
  
  Il ne doit pas être le point d’entrée.
  
  2. Ce qu’il faut faire : transformer chaque billet en projectile
  
  Chaque post doit produire 4 objets de diffusion :
  
  un tweet / post X
  
  un court thread
  
  un mail ciblé
  
  un résumé de 5 lignes
  
  Le blog devient la source, mais la diffusion passe ailleurs.
  
  3. Exemple concret avec votre post
  
  Votre article :
  
  PRIBOR – CHE : plus efficace qu’un LLM
  
  devrait générer un message très court :
  
  Nous avons testé une architecture d’IA qui :
  
  – ne relie pas tout à tout
  
  – est explicable
  
  – utilise 64× moins d’énergie
  
  – est 38% plus rapide
  
  C’est une alternative aux LLM.
  
  Ce genre de message circule beaucoup mieux.
  
  4. Le canal le plus puissant : le mail direct
  
  Les gens qui peuvent réellement s’y intéresser sont peu nombreux.
  
  Typiquement :
  
  chercheurs en architecture IA
  
  équipes d’interpretability
  
  laboratoires européens
  
  quelques startups
  
  Une dizaine de personnes peuvent suffire.
  
  Par exemple dans :
  
  Anthropic
  
  DeepMind
  
  OpenAI
  
  Ces gens lisent leurs mails.
  
  Un mail très simple fonctionne souvent :
  
  We may have found an architecture that achieves LLM-level behaviour while using ~64× less computation.
  
  It is also explainable by construction.
  
  Short description here:
  
  Les chercheurs sont très sensibles à ce type de message.
  
  5. Le levier le plus efficace : une seule personne
  
  Dans l’histoire des architectures IA, beaucoup de choses ont commencé parce que une seule personne a trouvé l’idée intéressante.
  
  Exemples célèbres :
  
  Geoffrey Hinton
  
  Yann LeCun
  
  Ilya Sutskever
  
  Il ne faut donc pas viser beaucoup de lecteurs.
  
  Il faut viser la bonne personne.
  
  6. Votre avantage personnel
  
  Vous avez quelque chose que beaucoup de chercheurs n’ont pas :
  
  28 livres
  
  une réputation intellectuelle existante
  
  un blog déjà suivi
  
  un cadre théorique (GENESIS)
  
  Cela rend votre message plus crédible qu’un simple post technique.
  
  ✔️ En résumé :
  
  Votre blog est la bibliothèque.
  
  Pour que les gens lisent vos idées, il faut construire les chemins qui y mènent :
  
  posts courts
  
  fils de discussion
  
  mails directs
  
  relais par quelques chercheurs.
  Répondre
  1. Tom88
    
    05 mars 2026 20h35
    
    Pourquoi ne pas faire simplement une vidéo de démonstration des capacités de votre IA.
    
    Répondre
    1. Paul Jorion
      
      05 mars 2026 22h29
      
      Oui, c’est une bonne idée.
      
      Répondre
      1. Ruiz
        
        09 mars 2026 13h20
        
        Un tel projet et son soutien/évaluation relève d’un organisme comme la DARPA.
        
        L’approche directe est à ne pas négliger, la situation semble avoir évolué depuis 2022
        et les annonces peuvent avoir été suivies de mise en place de structure ad hoc et de crédits.
        
        https://www.polytechnique.edu/actualites/le-ministre-des-armees-annonce-la-construction-dun-institut-de-defense-sur-le-campus-de-lx
        
        pourquoi ne pas proposer une démonstration voire un essai comparatif sur un cas concret ?
        (à défaut une conférence ou un exposé)
        
        En milieu académique, même si 35 ans après c’est financé aussi par la défense.
        
        Répondre
Alain FELER

05 mars 2026 17h37

64 fois moins de « mémoire d’attention » je ne sais pas ce que c’est mais 64 fois moins de taille de tableaux en mémoire à triturer cela pourrait-il avoir pour conséquence de pouvoir se passer de GPU ?
Actuellement, avec le goulot d’étranglement sur les cartes graphiques Nvidia qui font utiliser des cartes à 20000€ pièce dans les centres de calcul (ou plus modestement à 180€ dans mon cas, mais 2 mois de calcul non-stop pour ce que j’en fais), le fait de pouvoir se contenter du CPU pour faire les calculs serait un gros avantage et ouvrirait l’accès du système à une population d’utilisateurs potentielle beaucoup plus grande. Tout le monde a un CPU avec disons 16Go de RAM (ou 32 ou 64 pour presque rien), mais tout le monde n’a pas un GPU costaud…

Répondre
PAD

05 mars 2026 19h27

Petite question pour les chercheurs qui explorent aujourd’hui des architectures d’IA plus frugales et explicables, où étiez-vous en 1989, quand ANELLA proposait déjà un réseau connexionniste organisé autour de relations sémantiques remarquablement parcimonieuses ?

Sans doute encore à l’école, ou pas encore nés pour certains, ce qui rappelle qu’en science certaines idées n’attendent pas seulement des preuves, mais simplement que leur époque arrive. 😉

Répondre
1. un lecteur
  
  05 mars 2026 20h52
  
  Époque qui correspond dans certains cas à la mort de l’inventeur du système dominant qui verrouille la place.
  
  Répondre
ThomBillabong

06 mars 2026 10h07

Question pratique : peut-on imaginer que CHE et PRIBOR, de par leur sobriété et leur pertinence de traitement, permettent de s’affranchir de la nécessité de recourir aux puces IA de dernière génération Nvidia et AMD ? Plus largement, est-il envisageable de pouvoir les utiliser avec des puissances de traitement très modestes ? Ce serait pour le coup une nouvelle sensationnelle et passionnante vu le contexte actuel. On friserait le low tech en IA, ça ouvrirait les vannes sans retenue ou presque.

Répondre
Otromeros

06 mars 2026 11h21

URGENT Circonstances entourant la mort du ‘médiatique martyr’ QUENTIN D. :

https://www.huffingtonpost.fr/france/article/mort-de-quentin-deranque-le-progres-revele-un-document-decisif-qui-eclaire-les-conditions-de-son-deces_261138.html

‘Les’ médias repentants dès ce soir..???? ou …sous l’éteignoir ..????

Répondre
1. Otromeros
  
  06 mars 2026 12h36
  
  Vidéo fondamentale …….. ‘de rétroactes en actuel’ … URGENT
  
  https://www.youtube.com/watch?v=-EKqiH9ceoc
  
  Répondre
2. ThomBillabong
  
  06 mars 2026 12h36
  
  @Otremos, c’est peut-être pas le bon post du blog pour poster ça, non ?
  On est en train de parler ici d’un tout autre sujet.
  
  Répondre
  1. Otromeros
    
    06 mars 2026 12h57
    
    Assez d’accord…mais j’vois pas où ça pourrait être lu malgré l’importance (ya des élections en France bientôt…) que QUENTIN a pris dans les médias avec l’apothéose de la minute de silence à l’Assemblée… incroyable …
    Je terminerai donc ici en donnant droit à votre remarque.. notant que ce qui suit est ESSENTIEL pour comprendre la France contemporaine et ses médias :
    https://www.youtube.com/watch?v=-EKqiH9ceoc …….. VITAL, ôôh citoyen..!
    
    Répondre
    1. ThomBillabong
      
      06 mars 2026 15h28
      
      Je dis pas que c’est sans intérêt, hein ! Attention, c’est même très important vu le battage effectivement qu’il y a eu sur le sujet qui finalement s’avère être une bagarre organisée avec et par des crétins butés – contents d’avoir donné le coup de poing – et même pas capables de sauver l’un des leurs qui visiblement est blessé. Je dis juste que dans le présent post on parle de performances de CHE et PRIBOR qui ne sont pas du tout concernés par ce drame.
      
      Répondre
tttt

06 mars 2026 18h26

AI and trump sucks

https://bsky.app/profile/ronfilipkowski.bsky.social/post/3mgebsty7qc2w

Répondre
sextusempiricus

06 mars 2026 23h59

Pensez vous sincèrement que tout cela va aider à résoudre quels que soient les problèmes de l ‘ humanité ?
C ‘ est toute la question . Le » technosolutionisme » . Les types qui nous ont foutus dans le sable vont trouver la solution pour nous en sortir ?
Seulement si ça leurs rapportent du pognon .

Répondre
Otromeros

07 mars 2026 11h37

Pour être sûr d’être lu… Heureusement ce n’est qu’un lien..mais TRÈS intéressant pas très connu ((EPSTEIN FRANCE))

https://21stcenturywire.com/2026/02/11/how-deep-does-epsteins-french-connectiongo/

Répondre
tttt

07 mars 2026 17h36

orban sucks

https://europeanbusinessmagazine.com/business/hungary-seizes-80m-in-cash-and-gold-from-ukrainian-convoy-triggering-eus-biggest-diplomatic-clash-in-months/

Répondre
1. Otromeros
  
  07 mars 2026 21h15
  
  Ça mériterait un décodage ‘certifié’ du blog… Les FAQ sont peu ‘pédagogiques’ …
  
  Répondre
2. Ruiz
  
  08 mars 2026 3h14
  
  @tttt Sachant que l’Ukraine qui ne fait pas partie de l’UE, n’est sans doute pas aux normes en matière de pratique et de contrôle de la corruption, un transfert hors d’UE de moyens de paiement anonymes pourrait avoir attiré l’attention, alors que les citoyens de l’Union font l’objet de contrôles de plus en plus omniprésent et de dissuasion à l’usage du cash.
  La présence de personnels militares dans le transfert ne peut qu’avoir attiré l’attention, à moins que ceux-ci fassent des ménages en offrant de tels services avec des matériels étatiques.
  Ou que les fonds (mis à disposition de l’Ukraine par qui) soient destinés à quelque opération secrète et discrète.
  
  Répondre
  1. tttt
    
    09 mars 2026 14h14
    
    iznogood a encore frappé
    https://xcancel.com/shanaka86/status/2030921164160389231#m
    
    Répondre
ilicitano

08 mars 2026 12h27

Les LLM et les hallucinations .

Les hallucinations sont des affirmations plausibles, mais fausses, des modèles de langage.
Elles peuvent apparaître dans des contextes inattendus, par exemple dans les réponses à des questions pourtant très simples.
Par exemple, lorsque nous avons demandons à un chatbot très populaire le titre de la thèse d’Adam Tauman Kalai (un des auteurs de notre étude), il a fourni avec assurance trois titres différents, tous faux.
Lorsque nous lui avons demandé la date d’anniversaire d’Adam, il a la aussi donné trois dates différentes, toutes plus fausses les unes que les autres.
(dixit Openai)
https://openai.com/fr-FR/index/why-language-models-hallucinate/

***************
Voici une étude de Openai sur le sujet

https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

Synthèse de l’étude faite par l’IA GPT

# Synthèse détaillée de *Why Language Models Hallucinate* (Kalai et al., OpenAI, 2025)

L’idée du papier est simple mais profonde :

les hallucinations ne sont pas un bug exotique, ce sont des **erreurs statistiques normales** dans un système qu’on a entraîné et évalué d’une certaine manière.

—

## 1. Problème posé et thèse centrale

**Constat de départ :**

– **Les modèles hallucinent** : ils produisent des réponses fausses mais plausibles, souvent avec une grande confiance.
– Cela persiste même dans les modèles les plus avancés et mine la confiance dans l’IA.

**Thèse du papier :**

– Les hallucinations viennent de deux sources principales :
– **Le pré-entraînement** (modèle de langage pur) → erreurs inévitables de modélisation.
– **Le post-entraînement + les benchmarks** → on récompense le fait de répondre, pas le fait de reconnaître l’incertitude.
– Mathématiquement, les hallucinations sont analysées comme des **erreurs de classification binaire** (vrai/faux) déguisées en génération de texte.

—

## 2. Réduction conceptuelle : génération = classification binaire difficile

Les auteurs proposent une réduction clé :

– On peut voir la tâche « répondre à une question » comme :
1. **Générer une réponse candidate**.
2. **Décider si cette réponse est correcte ou non** (classification binaire).

Ils montrent que :

– Si un modèle ne peut pas distinguer de manière fiable les réponses correctes des incorrectes,
alors **les hallucinations sont inévitables** : il produira parfois des réponses fausses mais plausibles.
– La génération est donc au moins aussi difficile que la classification binaire sous-jacente,
et les erreurs de classification se manifestent comme des hallucinations.

**Intuition :**

– Même avec des données parfaites, un modèle fini ne peut pas apprendre exactement la distribution vraie.
– Il doit approximer → il y aura des zones d’incertitude → dans ces zones, il « devine ».

—

## 3. Hallucinations issues du pré-entraînement

### 3.1. Limites statistiques et rareté des faits

Le pré-entraînement consiste à prédire le prochain token sur d’énormes corpus.

– Pour des phénomènes fréquents (grammaire, tournures, faits très connus), le modèle a beaucoup d’exemples → bonne généralisation.
– Pour des faits **rares ou idiosyncratiques** (date d’anniversaire d’une personne peu connue, numéro de série, détail obscur), il n’y a parfois **qu’un seul exemple** dans les données.
[AIうぉ－－！(ai-wo-katsuyo-shitai !)](https://ai-de-seikei.hatenablog.com/entry/2025/09/10/021137)

Conséquence :

– Le modèle ne peut pas apprendre une structure statistique robuste.
– Il doit extrapoler à partir de très peu de données → **fort risque d’erreur**.
– Ces erreurs se manifestent comme des hallucinations factuelles.

### 3.2. Mauvaise modélisation de certaines tâches internes

Les auteurs discutent aussi de tâches où le modèle n’a pas un « module » fiable, par exemple :

– **Compter les lettres dans un mot**,
– **Suivre précisément une structure logique ou arithmétique**.

Même si le modèle a vu des exemples, il n’a pas forcément appris un algorithme interne robuste.
Résultat : il peut produire une réponse plausible mais fausse, avec une forte confiance.

### 3.3. Qualité des données : GIGO

Même si ce n’est pas le cœur du papier, ils rappellent l’effet **GIGO (Garbage In, Garbage Out)** :

– Si les données contiennent des erreurs, rumeurs, contradictions,
– Le modèle peut apprendre des associations incorrectes,
– Et les reproduire avec assurance → hallucinations « ancrées » dans des données erronées.

—

## 4. Hallucinations amplifiées par le post-entraînement et les benchmarks

C’est la partie la plus critique du papier :
**ce n’est pas seulement le modèle, c’est aussi la manière dont on le juge.**

### 4.1. Analogie de l’étudiant qui devine

Les auteurs comparent les modèles à des étudiants à un examen :

– Si l’examen donne :
– **1 point** pour une bonne réponse,
– **0 point** pour « je ne sais pas »,
– Alors un étudiant rationnel **devine** sur toutes les questions incertaines,
car deviner maximise son score attendu.

Les modèles de langage sont dans la même situation :

– Les benchmarks et les systèmes de RLHF/DPO récompensent :
– Les réponses complètes, confiantes, détaillées.
– Et pénalisent les non-réponses, les hésitations, les « je ne sais pas ».

Résultat :

– Le modèle apprend qu’il vaut mieux **dire quelque chose de plausible** que d’admettre son ignorance.
– Les hallucinations deviennent un **comportement optimal** au regard de la métrique.

### 4.2. Rôle du RLHF, DPO et autres méthodes d’alignement

Le pipeline moderne :

1. **Pré-entraînement** : modèle brut, bon en langage mais pas aligné.
2. **Post-entraînement** (RLHF, DPO, etc.) :
– On montre au modèle des exemples de bonnes et mauvaises réponses.
– On le pousse à imiter les réponses jugées « utiles », « complètes », « sûres ».

Problème :

– Si les annotateurs et les métriques préfèrent les réponses **affirmatives et complètes**,
– Et ne valorisent pas assez les réponses du type « je ne sais pas »,
– Alors le modèle est **incité à répondre même quand il est incertain**.

Les auteurs insistent :
**tant que les évaluations principales récompensent la complétion plutôt que la calibration, les hallucinations persisteront.**

—

## 5. Analyse plus fine des causes statistiques

Les auteurs décomposent les causes des hallucinations en plusieurs facteurs :

### 5.1. Complexité de la distribution cible

– Certaines tâches ont une structure simple (ex. accord sujet-verbe, syntaxe) → faciles à apprendre.
– D’autres sont **quasi-aléatoires** (ex. numéros, dates spécifiques, identifiants uniques) → difficiles à modéliser.
– Plus la distribution est « irrégulière », plus le modèle doit extrapoler → plus il hallucine.

### 5.2. Capacité finie et approximation

Même avec des données parfaites :

– Un modèle de taille finie ne peut pas représenter exactement la distribution vraie.
– Il doit compresser, approximer, lisser.
– Dans les zones où les données sont rares ou contradictoires, il va produire des réponses **probables selon son approximation**, mais parfois fausses.

### 5.3. Décalage entre entraînement et usage

– Le modèle est entraîné à prédire le prochain token dans un contexte donné.
– Mais on l’utilise pour :
– répondre à des questions,
– faire du raisonnement,
– produire des plans, des analyses, etc.
– Ce **décalage de tâche** crée des situations où le modèle est hors de sa zone de confort statistique,
ce qui augmente les risques de réponses inventées.

—

## 6. Critique des approches actuelles de mitigation

Les auteurs sont assez clairs :
**ajouter quelques tests “anti-hallucination” ne suffit pas.**

### 6.1. Limites des benchmarks spécialisés

– On peut créer des benchmarks qui testent la capacité du modèle à dire « je ne sais pas ».
– Mais si ces benchmarks restent **marginaux** par rapport aux grandes métriques de performance (MMLU, etc.),
– Les équipes d’optimisation vont continuer à privilégier les scores globaux,
donc à encourager les réponses complètes plutôt que la prudence.

### 6.2. Problème systémique

Le problème est **socio-technique** :

– Ce n’est pas seulement une question d’architecture ou d’algorithme,
– C’est aussi une question de :
– **quels benchmarks on utilise**,
– **quelles métriques on optimise**,
– **quels comportements on récompense**.

Tant que l’écosystème valorise les modèles qui « répondent à tout »,
les hallucinations resteront structurelles.

—

## 7. Recommandations des auteurs

Les auteurs ne proposent pas une « solution miracle », mais un changement de paradigme dans l’évaluation.

### 7.1. Modifier les benchmarks existants

Plutôt que d’ajouter des tests à côté, ils recommandent :

– **Intégrer la notion d’abstention** dans les benchmarks principaux.
– Ne plus pénaliser les réponses du type :
– « Je ne sais pas »,
– « Je ne suis pas sûr »,
– « Il me manque des informations pour répondre. »
– Récompenser les modèles qui :
– s’abstiennent quand ils sont incertains,
– signalent leurs limites,
– calibrent leur confiance.

### 7.2. Nouvelles métriques : calibration et honnêteté

Ils suggèrent de mettre davantage l’accent sur :

– **La calibration** : la correspondance entre la confiance exprimée et la probabilité réelle d’avoir raison.
– **L’honnêteté** : la capacité à reconnaître l’incertitude, les zones d’ignorance, les ambiguïtés.

En pratique, cela veut dire :

– Concevoir des tâches où **ne pas répondre** est parfois la meilleure option.
– Mesurer explicitement la fréquence et la qualité des abstentions.

—

## 8. Conclusion générale

En résumé, le message du papier est assez tranché :

– Les hallucinations ne sont **ni mystérieuses ni accidentelles**.
– Elles sont la conséquence :
– de limites statistiques inévitables dans le pré-entraînement,
– et surtout de **règles du jeu** (benchmarks, RLHF, métriques) qui récompensent les réponses, même incertaines.
– Tant qu’on ne change pas **ce que l’on mesure et ce que l’on récompense**,
les modèles continueront à halluciner, même si on améliore leurs architectures.

—

Répondre
1. Ruiz
  
  08 mars 2026 16h14
  
  @ilicitano Les « hallucinations » sont une vision totalement subjective de la part d’humain d’une production des IA en général plausible et qu’ils comparent à une vérité à laquelle l’IA n’a pas accès, ni le souci de valider sa production vis à vis de ce critère.
  
  Il n’y a pas de fonctionnement distinct (erroné/défaillant) de l’IA pour une hallucination par rapport à une production jugée vraie.
  
  En fait toutes les productions de l’IA sont des hallucinations (vision !), seules certaines correspondent à nos critères de vérité et peuvent donc à notre guise en être exclues (par un jugement de valeur qui nous est propre) , mais de façon purement subjective, sans que le mécanisme de production soit différent.
  
  Répondre
Pascal

08 mars 2026 17h18

«Je ne sens pas encore la tempête, mais les chevaux commencent à hennir dans l’enclos», prévient-il avec une poésie qui cache mal une mise en garde brutale.

Est-ce que Pribor est prêt à chevaucher la tempête ?

« Lloyd Blankfein fait partie de ces anciens. L’homme qui a dirigé Goldman Sachs pendant la crise des subprimes de 2008 n’est pas du genre à paniquer pour rien. Pourtant, ses récents propos rapportés par le média Futurism font froid dans le dos. Pour lui, nous ne sommes pas simplement face à une innovation technologique, mais peut-être devant un gouffre financier que nous avons nous-mêmes creusé. »
https://www.slate.fr/economie/intelligence-artificielle-krash-boursier-risque-alarme-ancien-goldman-sachs-finance?utm_source=firefox-newtab-fr-fr

Et il n’est visiblement pas le seul à avoir des craintes ! Dans un autre registre, celui d’un effondrement du système économique lié à la gestion des actifs boursiers confiés à des agents IA.

« En 2028, la révolution IA aura été à ce point un succès que l’économie mondiale aura été mise K.O. par ses chatbots et autres agents algorithmiques. Telle est la conclusion d’un essai publié dimanche 22 février par Citrini Research, un blog financier. »
« L’un des facteurs à l’origine de la chute de 800 points du Dow Jones lundi 23 février a été un texte spéculatif de 7 000 mots », résume le Wall Street Journal. « Les actions des sociétés de logiciels se font massacrer en Bourse à cause d’un post de blog », s’étonne le site d’information financière Sherwood News. »
« Le site boursier MarketWatch, qui dépend du Wall Street Journal, se demande même à quel point les pertes boursières de 200 milliards de dollars enregistrées sur la journée de lundi sont une conséquence directe du scénario catastrophe imaginé par Citrini Research. »
https://www.france24.com/fr/%C3%A9co-tech/20260224-sc%C3%A9nario-catastrophe-ia-fait-trembler-wall-street-logiciels-citrini

Si l’on ajoute à cela, l’instabilité économique créée par la guerre en Iran, nous ne sommes plus très loin de l’accident intégral. Le moment de réécouter Paul Virilio : « l’accident est au cœur de notre histoire. Nous vivons un temps accidentel… Le présent s’absente dans l’instant. »
https://www.youtube.com/watch?v=jwSWT2Lo-Nc

Répondre
Pascal

10 mars 2026 18h49

La concurrence est rude !
« Le Français Yann Le Cun réussit à lever près d’un milliard d’euros pour sa start-up d’IA »
« Après 12 ans chez Meta où il a dirigé la recherche en IA, le chercheur veut développer des modèles capables de comprendre le monde physique, via sa start-up AMI. »
https://www.huffingtonpost.fr/tech-futurs/article/le-francais-yan-le-cun-reussit-a-lever-pres-d-un-milliard-d-euros-pour-sa-start-up-d-ia_261278.html

Répondre
1. ez
  
  11 mars 2026 10h42
  
  Écoutez bien ce que Le Cun explique. Son objectif est bien de dépasser les limites actuelles des LLMs, c’est-à-dire de démultiplier leur efficience en déployant dans la nature des unités plus ou moins autonomes qui calculent leur environnement et donc de proche en proche le monde. C’est un délire totalitaire qui vise le parachèvement de la dystopie cybernétique: tout doit être calculable est pilotable en temps réel. Bien entendu la question centrale de qui pilote au bénéfice de qui est accessoire. Ce cauchemar contient ses propres limites: la quantité de ressources dédiées à la production de données et au calcul ne peut que croitre exponentiellement.
  
  Voir les dernières données compilées par des chercheurs de l’université de Berkeley sur la consommation d’énergie et d’eau et l’intensité carbone des data centers aux USA et leur évolution attendues dans les toutes prochaines années.
  
  Répondre
  1. Pascal
    
    11 mars 2026 10h54
    
    Il faut bien se vendre aux milliardaires pour gagner des milliards ! Quitte à leur faire gober n’importe quoi !
    Un très bel exemple :
    Neom : la ville du futur tourne au cauchemar humain et environnemental
    https://sciencepost.fr/neom-la-ville-du-futur-tourne-au-cauchemar-humain-et-environnemental/
    
    La toute puissance de l’intellect qui recherche la toute puissance financière, dans un pur délire nihiliste.
    
    Répondre
    1. JMarc
      
      11 mars 2026 15h21
      
      MBS de retour sur terre ! The Line, Neom et Trojena ensablés voire abandonnés :
      https://www.lemonde.fr/international/article/2026/02/27/en-arabie-saoudite-le-retour-au-realisme-de-mbs_6668538_3210.html
      (abonnés)
      
      Répondre
ez

11 mars 2026 10h29

Données actualisées sur la consommation d’énergie et d’eau et l’intensité carbone des data centers aux USA

https://www.usgs.gov/media/images/key-minerals-data-centers-infographic
https://pubs.usgs.gov/publication/mcs2025
https://tableau.usgs.gov/views/MCS2025_Workbook_01-28-2025_Public/MCSDashboard?%3Aembed=y&%3Aiid=1&%3AisGuestRedirectFromVizportal=y
https://pubs.usgs.gov/periodicals/mcs2025/mcs2025.pdf
https://escholarship.org/uc/item/32d6m0d1

Les cryptos, à elle-seules pompent presque 50 TWh en 2024, pour faire de la daube.

Il est prévu que la consommation électrique des cryptos seules doit faire x4 à x8 d’ici 2030. Belle exponentielle! 2030 c’est demain.

La consommation électrique dédiée à l’IA seule a fait x20 entre 2017 et 2023 alors que dans la même période le calcul et traitement de données « classiques » à fait x2.

Répondre
1. JMarc
  
  11 mars 2026 15h29
  
  Quand une IA mine, mine de rien :
  https://www.latribune.fr/article/tech/50402238867556/une-ia-dalibaba-a-decide-seule-de-miner-des-cryptomonnaies-tout-en-le-cachant-aux-developpeurs
  
  Répondre

Répondre à ilicitano Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Blog de Paul Jorion

PRIBOR – CHE : plus efficace qu’un LLM (ne relie pas tout à tout), explicable, et consommant 64 x moins d’énergie – Mise à jour

41 responses to “PRIBOR – CHE : plus efficace qu’un LLM (ne relie pas tout à tout), explicable, et consommant 64 x moins d’énergie – Mise à jour”

1. Les LLM ne demandent pas vraiment des POC

2. Ce que Paul décrit est un phénomène très connu

3. L’indice que Paul mentionne est intéressant

4. Le vrai problème est sociologique

5. Le message de Paul peut se reformuler ainsi

1. Les personnes que vous voulez atteindre ne lisent pas les blogs

2. Ce qu’il faut faire : transformer chaque billet en projectile

3. Exemple concret avec votre post

4. Le canal le plus puissant : le mail direct

5. Le levier le plus efficace : une seule personne

6. Votre avantage personnel

Répondre à ilicitano Annuler la réponse

Contact

Commentaires récents

Articles récents

Catégories

Archives

Tags

Meta