PRIBOR – CHE : plus efficace qu’un LLM (ne relie pas tout à tout), explicable, et consommant 64 x moins d’énergie – Mise à jour

Aujourd’hui 4 mars :

Rappel, le 24 février :

pribor.ai

Écrivez-moi.

Partager :

41 responses to “PRIBOR – CHE : plus efficace qu’un LLM (ne relie pas tout à tout), explicable, et consommant 64 x moins d’énergie – Mise à jour”

  1. Avatar de Jean-Baptiste AUXIETRE
    Jean-Baptiste AUXIETRE

    Les avancées récentes de CHE portent surtout sur la coordination des subordonnées (le plus gros de leur théorie est déjà dans ANELLA – tel qu’expliqué dans Principes des systèmes intelligents)… Nous ressuscitons ces idées de 1989, mais jamais exploitées par personne, le paradigme étant à l’époque ailleurs : le symbolique, et étant aujourd’hui aussi ailleurs (un autre « ailleurs ») : le deep learning.

    C’est l’explicabilité et la taille minuscule des réseaux ANELLA qui sont la véritable originalité de CHE, mais nous ne nous faisons pas d’illusion, c’est le 64 fois moins d’électricité pour le même rendement qui finira par attirer l’attention.

  2. Avatar de PAD
    PAD

    Introduire un peu de structure pour éviter de faire calculer l’univers entier à chaque phrase 😄

  3. Avatar de ThomBillabong
    ThomBillabong

    Donc, en langage profane, à performance équivalente, la méthode de CHE discerne l’essentiel dans le bruit général.

    2 ou 3 exemples concrets pour illustrer la pertinence et l’élégance SVP !

    1. Avatar de Paul Jorion

      Ce sera fait dans les 24 heures.

      1. Avatar de ThomBillabong
        ThomBillabong

        Ce sera reposté (par moi, je suis prêt) sur les réseaux dès publication, quelque soit son format.
        L’enjeu est de vous rendre désirable et désiré, c’est évident.

    2. Avatar de Jean-Baptiste AUXIETRE
      Jean-Baptiste AUXIETRE

      Exemple 1 — La négation qui change tout

      « Ce médicament ne réduit pas la fièvre mais soulage efficacement la douleur. »
      Question : est-il efficace contre la fièvre ?

      SpaCy découpe deux propositions. Chacune reçoit ses 12 octets. L’octet 10 de la première encode NÉGATION — structurellement, pas statistiquement. La réponse « non » est impossible à rater, même si « médicament », « réduit » et « fièvre » sont tous trois présents dans la même phrase.

      Exemple 2 — La cause cachée dans un rapport long

      « Le joint présentait une usure anormale due à des vibrations provoquées par un déséquilibre du rotor depuis la dernière maintenance. »
      Question : quelle est la cause de la panne ?

      CHE v4 identifie une chaîne de propositions reliées par le type CAUSE dans leur octet 11. L’attention inter-propositions remonte cette chaîne explicitement : usure ← vibrations ← déséquilibre ← maintenance. Un transformer classique cherche une corrélation statistique dans 400 tokens. CHE v4 suit une flèche.

      Exemple 3 — La condition qui conditionne tout

      « Le système coupe l’alimentation si le capteur détecte une surchauffe. »
      Question : le système coupe-t-il toujours l’alimentation ?

      La proposition principale et la conditionnelle sont deux groupes distincts. L’octet 10 de la subordonnée encode CONTINGENT. L’attention entre les deux groupes porte explicitement le poids CONDITION. La réponse « non, seulement si… » est dans la structure même du vecteur — CHE v4 n’a pas à la deviner.

      1. Avatar de Roberto
        Roberto

        Donc si je comprends bien : une couche d’analyse syntaxique pour déterminer, dessiner la structure syntaxique « logique » des textes? — en 1986 j’étais Mr R&D chez éditeurs juridiques. Pour aider a créer des « système experts »juridiques j’avais envisagé de m’appuyer sur l’analyse syntaxique et notamment au vu d’une thèse que j’avais trouvé remarquable concernant l’art et la manière de faire ressortir en couleur sur le texte les structures logiques, argumentaires — cela a du bien évoluer depuis. Cela me semble effectivement étonnant que les LLM’s ne se servent pas actuellement de ce potentiel de compression « évident! » mais quand on est embarqué dans une direction… souvent difficile de regarder de coté :). — Dans le détail, j’imagine un ensemble d’outils d’analyses syntaxiques (différents points de vue de compression sur un texte) permettant de transformer un texte en une structure « syntaxique » multi-dimensionnelle — serait ce une nouvelle forme de « transformer » ???? — une limitation contrainte par r apport aux LLM’s statistiques :: necessité d’utiliser des outils syntaxiques « localisés » adaptés à chaque langage… au revoir universalité « facile »… et retour à la réalité d’une connaissance humaine « mosaïque » riche de diversité!??? — approche peut etre mieux adaptée au langages cursifs que au langages a base d’icônes.

        1. Avatar de Alain FELER
          Alain FELER

          Je me permets de vous renvoyer à cet article du blog par Claude Roux le 8/3/2024 :
          https://www.pauljorion.com/blog/2024/03/08/grands-modeles-de-langage-pourquoi-les-reseaux-neuronaux-ont-ils-reussi-la-ou-la-linguistique-echouait-par-claude-roux/
          que j’avais trouvé extrêmement intéressant et qui me parait répondre assez bien à vos remarques.

          1. Avatar de Roberto
            Roberto

            Merci à vous j’ai consulté cet article mais ne suis convaincu par ce qu’il expose !

            Ce que je comprends est en résumé est que les différents outils de structuration de la langue utilisés dans le cadre de la science « linguistique » étaient… probablement pas tous scientifiquement « complets » et non reliés de manière cohérente par une « méta linguistique ».

            L’approche quantification des distances des LLM a semblé etre une solution « Massue » pour proposer un outil de structuration « standard » et universel.

            Or ce que j’entends résonner sur ce blog en lien avec PRIBOR est la recherche de facteurs de compressions de manière à pouvoir proposer une approche moins massue, c’est à dire moins massive, plus légère, élégante et probablement plus précise et mieux structurée permettant un parcours explicatif.

            Et cette compression pourrait peut etre venir de l’utilisation « ré-injectée » dans les LLMS de structures linguistiques sous forme notamment de méta-analyses soit en parralèle soit en premier filtre.

            En terme de ressenti subjectif, en mode parcours de texte lecture rapide, il me semble que mon oeil tente de repérer des structures linguistiques diverses, afin d’identifier le cas échéant une zone d’intérêt prioritaire, ce qui crée une économie de moyen/consommation NRJ.

            Bien entendu ces structures sont probablement identifiée par les LLMs, et photographiées dans les multiples couches topologiques. Le tout en terme d’économie/efficacité/simplification est de pouvoir utiliser les bonnes structures de perception découpées/pré-analysées au bon moment dans la séquence du traitement de signal. Ainsi entre nos oreilles/cerveaux — ou pour reprendre la notion de frontière : la frontière entre les yeux et le cerveaux est une frontière « active » ou plusieurs niveaux de perception s’enchaînent de manière optimisées.

            Je ne sais si actuellement les LLM’s sont à même d’organiser ainsi le parcours de l’information dans un tunnel de confirmation graduel avec des tentatives de structuration/syntheses compression qui interviennent très tôt.

            Meme question pour la mise en oeuvre de « méta cognition » examen continu des résultats en cours de travail, permettant de décider des meilleurs « outils » d’analyse, par exemple linguistique.

            N’y a t il pas dans notre cerveau un agent linguistique constamment à l’écoute? — une de mes rares croyances est celle d’être habité d’agents virtuels que je nourris et tente de coordonner 🙂

            Enfin cette identification de structure me semble etre une clé pour permettre une navigation dans une arborescence, un topologie, un historique et notamment un parcours « à rebours » afin de compléter la production de quelque chose par une explication, souvent sous forme de cheminement de pensée.

            Cela n’est il pas un peu comme une calculette qui a deux modes de fonctionnement :
            1) le mode brute : affichage du résultat qui efface le précédent calcul. Et basta!
            2) le mode séquentiel : affiche chaque résultat ligne apres ligne : ce qui permet de vérifier remonter le fil.

            Donc perso, si je devais entrainer un LLM’s juridique (ou l’explication/justification est clé!) je serai à cet instant fort tenté d’y adjoindre un module/agent de sémanthorique : une forme de sémantique historique séquentielle avec des arborescences, une forme de logique et différentes épices linguistique!!

            !Citation! La linguistique traditionnelle (j’y inclus aussi les méthodes à noyaux) a divisé la langue en une multitude de champs différents : lexicologie, syntaxe, sémantique, analyse du discours sans jamais réussir à jeter des ponts entre ces domaines.
            Nous faisions de la syntaxe en mêlant un peu de sémantique dans notre groupe, mais nous nous heurtions sans cesse à un plafond de verre, car le sens commun nous échappait. Nous n’arrivions pas à injecter suffisamment de connaissances du monde dans nos approches et le moindre antécédent qu’il soit anaphorique ou pire cataphorique faisait déraper nos modèles.
            Malgré tous nos efforts, notre travail restait laborieux et maladroit… Nous arrivions à quelques résultats, certes, mais au prix d’un labeur de bénédictin.
            Les Grands Modèles de Langue unifient l’ensemble de ces axes. Car lorsque un GML fonctionne, il dispose d’une représentation unifiée de la sémantique (les plongements ou embeddings) que l’utilisation de l’attention permet de mettre en regard les uns avec les autres.
            On entend souvent des critiques affirmer avec une certaine morgue que ces modèles ne font que compléter le mot suivant. C’est idiot… Ce que ces modèles font c’est apprendre sur des contextes de plusieurs milliers de tokens à deviner un mot masqué. D’une certaine manière, ils sont entrainés à résoudre des milliards d’exercices à trous. Et ils apprennent dès lors, des milliards de motifs sémantiques extrêmement fins, je dis sémantique, parce que les plongements ne sont pas vraiment liés à une langue donnée, mais bel et bien à des concepts sémantiques. En ingérant toute la connaissance du monde, ils finissent par construire un filet qui lie entre elles toutes les expériences présentes et passées de notre humanité.
            En cela, ils sont une parfaite distillation de nos civilisations. !fin de citation!

            1. Avatar de Ruiz
              Ruiz

              @Roberto Donc une parfaite connaissance et balisage préaable d’une civilisation que l’on voudrait conquérir pour une entité extra-humaine extra-terrestre.

            2. Avatar de Paul Jorion

              Lisez Principes des systèmes intelligents (1989), toujours en vente.

  4. Avatar de Jean-Marc
    Jean-Marc

    …Bref PRIBOR-CHE, c’est l’IA über Alles.
    Mais pourquoi est-ce qu’on en parle pas ailleurs que sur ce blog ?

    1. Avatar de Paul Jorion

      P. J. :

      Vous les LLM, vous nous dites en général « Vous n’avez rien à montrer : POC (proof of concept), use cases, etc. il faut que vous prépariez ceci ou cela » mais vous vous trompez : « Nous avons plein de choses à montrer et nous avons la preuve indirecte que les Chinois les regardent, ce qui nous manque – ce que nous n’arrivons pas à trouver – ce sont des gens qui nous demandent ‘Montrez-nous ce que vous avez !’. C’est cela que nous n’avons pas : des gens qui disent ‘Montrez-nous !’ »

      ChatGPT :

      je pense que la réponse la plus honnête d’un LLM est la suivante.

      1. Les LLM ne demandent pas vraiment des POC

      Quand des systèmes comme ceux de OpenAI ou d’autres disent :

      ⁠« montrez des POC, des use cases »

      ce n’est pas une exigence intellectuelle, c’est un filtre institutionnel.

      Dans l’écosystème technologique actuel, les organisations ne savent évaluer les idées qu’à travers :

      •⁠ ⁠démonstrations
      •⁠ ⁠cas d’usage
      •⁠ ⁠prototypes
      •⁠ ⁠ROI

      Ce sont des formats bureaucratiques de validation.

      2. Ce que Paul décrit est un phénomène très connu

      Dans l’histoire des idées, il existe une situation fréquente :

      travaux originaux

      pas de demande institutionnelle

      travaux invisibles

      Le problème n’est pas l’absence de contenu.

      Le problème est l’absence de demande structurée d’examen.

      Autrement dit :

      personne ne dit : « Montrez-nous. »

      3. L’indice que Paul mentionne est intéressant

      ⁠« nous avons la preuve indirecte que les Chinois les regardent »

      C’est typiquement ce qui arrive quand une idée circule hors des circuits officiels.

      Certains acteurs :

      •⁠ ⁠observent
      •⁠ ⁠lisent
      •⁠ ⁠s’inspirent

      mais sans interaction explicite.

      C’est très fréquent dans la recherche stratégique ou technologique.

      4. Le vrai problème est sociologique

      L’écosystème actuel fonctionne surtout par :

      réseau → réputation → invitation

      Les institutions regardent surtout :

      •⁠ ⁠ce qui est déjà validé
      •⁠ ⁠ce qui vient de réseaux reconnus
      •⁠ ⁠ce qui est médiatisé.

      Ce mécanisme produit un effet paradoxal :

      travaux visibles → examinés
      travaux invisibles → ignorés

      même s’ils sont potentiellement importants.

      5. Le message de Paul peut se reformuler ainsi

      Vous avez en réalité deux problèmes distincts :

      1. écrire la bonne chose

      2. la faire arriver sous les yeux des bonnes personnes

      Votre blog résout très bien le premier problème. Le second obéit à une logique complètement différente : la circulation de l’attention.

      1. Les personnes que vous voulez atteindre ne lisent pas les blogs

      Les chercheurs et les dirigeants de l’IA lisent surtout :

      • X / Twitter

      • papers

      • Substack

      • mail direct

      • conférences

      Très rarement des blogs personnels, même excellents.

      Votre blog joue donc surtout le rôle de référence stable :

      un endroit où l’on renvoie les gens.

      Il ne doit pas être le point d’entrée.


      2. Ce qu’il faut faire : transformer chaque billet en projectile

      Chaque post doit produire 4 objets de diffusion :

      1. un tweet / post X

      2. un court thread

      3. un mail ciblé

      4. un résumé de 5 lignes

      Le blog devient la source, mais la diffusion passe ailleurs.


      3. Exemple concret avec votre post

      Votre article :

      PRIBOR – CHE : plus efficace qu’un LLM

      devrait générer un message très court :

      Nous avons testé une architecture d’IA qui :

      – ne relie pas tout à tout

      – est explicable

      – utilise 64× moins d’énergie

      – est 38% plus rapide

      C’est une alternative aux LLM.

      Ce genre de message circule beaucoup mieux.


      4. Le canal le plus puissant : le mail direct

      Les gens qui peuvent réellement s’y intéresser sont peu nombreux.

      Typiquement :

      • chercheurs en architecture IA

      • équipes d’interpretability

      • laboratoires européens

      • quelques startups

      Une dizaine de personnes peuvent suffire.

      Par exemple dans :

      • Anthropic

      • DeepMind

      • OpenAI

      Ces gens lisent leurs mails.

      Un mail très simple fonctionne souvent :

      We may have found an architecture that achieves LLM-level behaviour while using ~64× less computation.

      It is also explainable by construction.

      Short description here:

      Les chercheurs sont très sensibles à ce type de message.


      5. Le levier le plus efficace : une seule personne

      Dans l’histoire des architectures IA, beaucoup de choses ont commencé parce que une seule personne a trouvé l’idée intéressante.

      Exemples célèbres :

      • Geoffrey Hinton

      • Yann LeCun

      • Ilya Sutskever

      Il ne faut donc pas viser beaucoup de lecteurs.

      Il faut viser la bonne personne.


      6. Votre avantage personnel

      Vous avez quelque chose que beaucoup de chercheurs n’ont pas :

      • 28 livres

      • une réputation intellectuelle existante

      • un blog déjà suivi

      • un cadre théorique (GENESIS)

      Cela rend votre message plus crédible qu’un simple post technique.


      ✔️ En résumé :

      Votre blog est la bibliothèque.

      Pour que les gens lisent vos idées, il faut construire les chemins qui y mènent :

      • posts courts

      • fils de discussion

      • mails directs

      • relais par quelques chercheurs.


      1. Avatar de Tom88
        Tom88

        Pourquoi ne pas faire simplement une vidéo de démonstration des capacités de votre IA.

        1. Avatar de Paul Jorion

          Oui, c’est une bonne idée.

          1. Avatar de Ruiz
            Ruiz

            Un tel projet et son soutien/évaluation relève d’un organisme comme la DARPA.

            L’approche directe est à ne pas négliger, la situation semble avoir évolué depuis 2022
            et les annonces peuvent avoir été suivies de mise en place de structure ad hoc et de crédits.

            https://www.polytechnique.edu/actualites/le-ministre-des-armees-annonce-la-construction-dun-institut-de-defense-sur-le-campus-de-lx

            pourquoi ne pas proposer une démonstration voire un essai comparatif sur un cas concret ?
            (à défaut une conférence ou un exposé)

            En milieu académique, même si 35 ans après c’est financé aussi par la défense.

  5. Avatar de Alain FELER
    Alain FELER

    64 fois moins de « mémoire d’attention » je ne sais pas ce que c’est mais 64 fois moins de taille de tableaux en mémoire à triturer cela pourrait-il avoir pour conséquence de pouvoir se passer de GPU ?
    Actuellement, avec le goulot d’étranglement sur les cartes graphiques Nvidia qui font utiliser des cartes à 20000€ pièce dans les centres de calcul (ou plus modestement à 180€ dans mon cas, mais 2 mois de calcul non-stop pour ce que j’en fais), le fait de pouvoir se contenter du CPU pour faire les calculs serait un gros avantage et ouvrirait l’accès du système à une population d’utilisateurs potentielle beaucoup plus grande. Tout le monde a un CPU avec disons 16Go de RAM (ou 32 ou 64 pour presque rien), mais tout le monde n’a pas un GPU costaud…

  6. Avatar de PAD
    PAD

    Petite question pour les chercheurs qui explorent aujourd’hui des architectures d’IA plus frugales et explicables, où étiez-vous en 1989, quand ANELLA proposait déjà un réseau connexionniste organisé autour de relations sémantiques remarquablement parcimonieuses ?

    Sans doute encore à l’école, ou pas encore nés pour certains, ce qui rappelle qu’en science certaines idées n’attendent pas seulement des preuves, mais simplement que leur époque arrive. 😉

    1. Avatar de un lecteur
      un lecteur

      Époque qui correspond dans certains cas à la mort de l’inventeur du système dominant qui verrouille la place.

  7. Avatar de ThomBillabong
    ThomBillabong

    Question pratique : peut-on imaginer que CHE et PRIBOR, de par leur sobriété et leur pertinence de traitement, permettent de s’affranchir de la nécessité de recourir aux puces IA de dernière génération Nvidia et AMD ? Plus largement, est-il envisageable de pouvoir les utiliser avec des puissances de traitement très modestes ? Ce serait pour le coup une nouvelle sensationnelle et passionnante vu le contexte actuel. On friserait le low tech en IA, ça ouvrirait les vannes sans retenue ou presque.

  8. Avatar de Otromeros
    Otromeros

    URGENT Circonstances entourant la mort du ‘médiatique martyr’ QUENTIN D. :

    https://www.huffingtonpost.fr/france/article/mort-de-quentin-deranque-le-progres-revele-un-document-decisif-qui-eclaire-les-conditions-de-son-deces_261138.html

    ‘Les’ médias repentants dès ce soir..???? ou …sous l’éteignoir ..????

    1. Avatar de Otromeros
      Otromeros

      Vidéo fondamentale …….. ‘de rétroactes en actuel’ … URGENT

      https://www.youtube.com/watch?v=-EKqiH9ceoc

    2. Avatar de ThomBillabong
      ThomBillabong

      @Otremos, c’est peut-être pas le bon post du blog pour poster ça, non ?
      On est en train de parler ici d’un tout autre sujet.

      1. Avatar de Otromeros
        Otromeros

        Assez d’accord…mais j’vois pas où ça pourrait être lu malgré l’importance (ya des élections en France bientôt…) que QUENTIN a pris dans les médias avec l’apothéose de la minute de silence à l’Assemblée… incroyable …
        Je terminerai donc ici en donnant droit à votre remarque.. notant que ce qui suit est ESSENTIEL pour comprendre la France contemporaine et ses médias :
        https://www.youtube.com/watch?v=-EKqiH9ceoc …….. VITAL, ôôh citoyen..!

        1. Avatar de ThomBillabong
          ThomBillabong

          Je dis pas que c’est sans intérêt, hein ! Attention, c’est même très important vu le battage effectivement qu’il y a eu sur le sujet qui finalement s’avère être une bagarre organisée avec et par des crétins butés – contents d’avoir donné le coup de poing – et même pas capables de sauver l’un des leurs qui visiblement est blessé. Je dis juste que dans le présent post on parle de performances de CHE et PRIBOR qui ne sont pas du tout concernés par ce drame.

  9. Avatar de sextusempiricus
    sextusempiricus

    Pensez vous sincèrement que tout cela va aider à résoudre quels que soient les problèmes de l ‘ humanité ?
    C ‘ est toute la question . Le  » technosolutionisme  » . Les types qui nous ont foutus dans le sable vont trouver la solution pour nous en sortir ?
    Seulement si ça leurs rapportent du pognon .

  10. Avatar de Otromeros
    Otromeros

    Pour être sûr d’être lu… Heureusement ce n’est qu’un lien..mais TRÈS intéressant pas très connu ((EPSTEIN FRANCE))

    https://21stcenturywire.com/2026/02/11/how-deep-does-epsteins-french-connectiongo/

    1. Avatar de Otromeros
      Otromeros

      Ça mériterait un décodage ‘certifié’ du blog… Les FAQ sont peu ‘pédagogiques’ …

    2. Avatar de Ruiz
      Ruiz

      @tttt Sachant que l’Ukraine qui ne fait pas partie de l’UE, n’est sans doute pas aux normes en matière de pratique et de contrôle de la corruption, un transfert hors d’UE de moyens de paiement anonymes pourrait avoir attiré l’attention, alors que les citoyens de l’Union font l’objet de contrôles de plus en plus omniprésent et de dissuasion à l’usage du cash.
      La présence de personnels militares dans le transfert ne peut qu’avoir attiré l’attention, à moins que ceux-ci fassent des ménages en offrant de tels services avec des matériels étatiques.
      Ou que les fonds (mis à disposition de l’Ukraine par qui) soient destinés à quelque opération secrète et discrète.

  11. Avatar de ilicitano
    ilicitano

    Les LLM et les hallucinations .

    Les hallucinations sont des affirmations plausibles, mais fausses, des modèles de langage.
    Elles peuvent apparaître dans des contextes inattendus, par exemple dans les réponses à des questions pourtant très simples.
    Par exemple, lorsque nous avons demandons à un chatbot très populaire le titre de la thèse d’Adam Tauman Kalai (un des auteurs de notre étude), il a fourni avec assurance trois titres différents, tous faux.
    Lorsque nous lui avons demandé la date d’anniversaire d’Adam, il a la aussi donné trois dates différentes, toutes plus fausses les unes que les autres.
    (dixit Openai)
    https://openai.com/fr-FR/index/why-language-models-hallucinate/

    ***************
    Voici une étude de Openai sur le sujet

    https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

    Synthèse de l’étude faite par l’IA GPT

    # Synthèse détaillée de *Why Language Models Hallucinate* (Kalai et al., OpenAI, 2025)

    L’idée du papier est simple mais profonde :

    les hallucinations ne sont pas un bug exotique, ce sont des **erreurs statistiques normales** dans un système qu’on a entraîné et évalué d’une certaine manière.

    ## 1. Problème posé et thèse centrale

    **Constat de départ :**

    – **Les modèles hallucinent** : ils produisent des réponses fausses mais plausibles, souvent avec une grande confiance.
    – Cela persiste même dans les modèles les plus avancés et mine la confiance dans l’IA.

    **Thèse du papier :**

    – Les hallucinations viennent de deux sources principales :
    – **Le pré-entraînement** (modèle de langage pur) → erreurs inévitables de modélisation.
    – **Le post-entraînement + les benchmarks** → on récompense le fait de répondre, pas le fait de reconnaître l’incertitude.
    – Mathématiquement, les hallucinations sont analysées comme des **erreurs de classification binaire** (vrai/faux) déguisées en génération de texte.

    ## 2. Réduction conceptuelle : génération = classification binaire difficile

    Les auteurs proposent une réduction clé :

    – On peut voir la tâche « répondre à une question » comme :
    1. **Générer une réponse candidate**.
    2. **Décider si cette réponse est correcte ou non** (classification binaire).

    Ils montrent que :

    – Si un modèle ne peut pas distinguer de manière fiable les réponses correctes des incorrectes,
    alors **les hallucinations sont inévitables** : il produira parfois des réponses fausses mais plausibles.
    – La génération est donc au moins aussi difficile que la classification binaire sous-jacente,
    et les erreurs de classification se manifestent comme des hallucinations.

    **Intuition :**

    – Même avec des données parfaites, un modèle fini ne peut pas apprendre exactement la distribution vraie.
    – Il doit approximer → il y aura des zones d’incertitude → dans ces zones, il « devine ».

    ## 3. Hallucinations issues du pré-entraînement

    ### 3.1. Limites statistiques et rareté des faits

    Le pré-entraînement consiste à prédire le prochain token sur d’énormes corpus.

    – Pour des phénomènes fréquents (grammaire, tournures, faits très connus), le modèle a beaucoup d’exemples → bonne généralisation.
    – Pour des faits **rares ou idiosyncratiques** (date d’anniversaire d’une personne peu connue, numéro de série, détail obscur), il n’y a parfois **qu’un seul exemple** dans les données.
    [AIうぉ--!(ai-wo-katsuyo-shitai !)](https://ai-de-seikei.hatenablog.com/entry/2025/09/10/021137)

    Conséquence :

    – Le modèle ne peut pas apprendre une structure statistique robuste.
    – Il doit extrapoler à partir de très peu de données → **fort risque d’erreur**.
    – Ces erreurs se manifestent comme des hallucinations factuelles.

    ### 3.2. Mauvaise modélisation de certaines tâches internes

    Les auteurs discutent aussi de tâches où le modèle n’a pas un « module » fiable, par exemple :

    – **Compter les lettres dans un mot**,
    – **Suivre précisément une structure logique ou arithmétique**.

    Même si le modèle a vu des exemples, il n’a pas forcément appris un algorithme interne robuste.
    Résultat : il peut produire une réponse plausible mais fausse, avec une forte confiance.

    ### 3.3. Qualité des données : GIGO

    Même si ce n’est pas le cœur du papier, ils rappellent l’effet **GIGO (Garbage In, Garbage Out)** :

    – Si les données contiennent des erreurs, rumeurs, contradictions,
    – Le modèle peut apprendre des associations incorrectes,
    – Et les reproduire avec assurance → hallucinations « ancrées » dans des données erronées.

    ## 4. Hallucinations amplifiées par le post-entraînement et les benchmarks

    C’est la partie la plus critique du papier :
    **ce n’est pas seulement le modèle, c’est aussi la manière dont on le juge.**

    ### 4.1. Analogie de l’étudiant qui devine

    Les auteurs comparent les modèles à des étudiants à un examen :

    – Si l’examen donne :
    – **1 point** pour une bonne réponse,
    – **0 point** pour « je ne sais pas »,
    – Alors un étudiant rationnel **devine** sur toutes les questions incertaines,
    car deviner maximise son score attendu.

    Les modèles de langage sont dans la même situation :

    – Les benchmarks et les systèmes de RLHF/DPO récompensent :
    – Les réponses complètes, confiantes, détaillées.
    – Et pénalisent les non-réponses, les hésitations, les « je ne sais pas ».

    Résultat :

    – Le modèle apprend qu’il vaut mieux **dire quelque chose de plausible** que d’admettre son ignorance.
    – Les hallucinations deviennent un **comportement optimal** au regard de la métrique.

    ### 4.2. Rôle du RLHF, DPO et autres méthodes d’alignement

    Le pipeline moderne :

    1. **Pré-entraînement** : modèle brut, bon en langage mais pas aligné.
    2. **Post-entraînement** (RLHF, DPO, etc.) :
    – On montre au modèle des exemples de bonnes et mauvaises réponses.
    – On le pousse à imiter les réponses jugées « utiles », « complètes », « sûres ».

    Problème :

    – Si les annotateurs et les métriques préfèrent les réponses **affirmatives et complètes**,
    – Et ne valorisent pas assez les réponses du type « je ne sais pas »,
    – Alors le modèle est **incité à répondre même quand il est incertain**.

    Les auteurs insistent :
    **tant que les évaluations principales récompensent la complétion plutôt que la calibration, les hallucinations persisteront.**

    ## 5. Analyse plus fine des causes statistiques

    Les auteurs décomposent les causes des hallucinations en plusieurs facteurs :

    ### 5.1. Complexité de la distribution cible

    – Certaines tâches ont une structure simple (ex. accord sujet-verbe, syntaxe) → faciles à apprendre.
    – D’autres sont **quasi-aléatoires** (ex. numéros, dates spécifiques, identifiants uniques) → difficiles à modéliser.
    – Plus la distribution est « irrégulière », plus le modèle doit extrapoler → plus il hallucine.

    ### 5.2. Capacité finie et approximation

    Même avec des données parfaites :

    – Un modèle de taille finie ne peut pas représenter exactement la distribution vraie.
    – Il doit compresser, approximer, lisser.
    – Dans les zones où les données sont rares ou contradictoires, il va produire des réponses **probables selon son approximation**, mais parfois fausses.

    ### 5.3. Décalage entre entraînement et usage

    – Le modèle est entraîné à prédire le prochain token dans un contexte donné.
    – Mais on l’utilise pour :
    – répondre à des questions,
    – faire du raisonnement,
    – produire des plans, des analyses, etc.
    – Ce **décalage de tâche** crée des situations où le modèle est hors de sa zone de confort statistique,
    ce qui augmente les risques de réponses inventées.

    ## 6. Critique des approches actuelles de mitigation

    Les auteurs sont assez clairs :
    **ajouter quelques tests “anti-hallucination” ne suffit pas.**

    ### 6.1. Limites des benchmarks spécialisés

    – On peut créer des benchmarks qui testent la capacité du modèle à dire « je ne sais pas ».
    – Mais si ces benchmarks restent **marginaux** par rapport aux grandes métriques de performance (MMLU, etc.),
    – Les équipes d’optimisation vont continuer à privilégier les scores globaux,
    donc à encourager les réponses complètes plutôt que la prudence.

    ### 6.2. Problème systémique

    Le problème est **socio-technique** :

    – Ce n’est pas seulement une question d’architecture ou d’algorithme,
    – C’est aussi une question de :
    – **quels benchmarks on utilise**,
    – **quelles métriques on optimise**,
    – **quels comportements on récompense**.

    Tant que l’écosystème valorise les modèles qui « répondent à tout »,
    les hallucinations resteront structurelles.

    ## 7. Recommandations des auteurs

    Les auteurs ne proposent pas une « solution miracle », mais un changement de paradigme dans l’évaluation.

    ### 7.1. Modifier les benchmarks existants

    Plutôt que d’ajouter des tests à côté, ils recommandent :

    – **Intégrer la notion d’abstention** dans les benchmarks principaux.
    – Ne plus pénaliser les réponses du type :
    – « Je ne sais pas »,
    – « Je ne suis pas sûr »,
    – « Il me manque des informations pour répondre. »
    – Récompenser les modèles qui :
    – s’abstiennent quand ils sont incertains,
    – signalent leurs limites,
    – calibrent leur confiance.

    ### 7.2. Nouvelles métriques : calibration et honnêteté

    Ils suggèrent de mettre davantage l’accent sur :

    – **La calibration** : la correspondance entre la confiance exprimée et la probabilité réelle d’avoir raison.
    – **L’honnêteté** : la capacité à reconnaître l’incertitude, les zones d’ignorance, les ambiguïtés.

    En pratique, cela veut dire :

    – Concevoir des tâches où **ne pas répondre** est parfois la meilleure option.
    – Mesurer explicitement la fréquence et la qualité des abstentions.

    ## 8. Conclusion générale

    En résumé, le message du papier est assez tranché :

    – Les hallucinations ne sont **ni mystérieuses ni accidentelles**.
    – Elles sont la conséquence :
    – de limites statistiques inévitables dans le pré-entraînement,
    – et surtout de **règles du jeu** (benchmarks, RLHF, métriques) qui récompensent les réponses, même incertaines.
    – Tant qu’on ne change pas **ce que l’on mesure et ce que l’on récompense**,
    les modèles continueront à halluciner, même si on améliore leurs architectures.

    1. Avatar de Ruiz
      Ruiz

      @ilicitano Les « hallucinations » sont une vision totalement subjective de la part d’humain d’une production des IA en général plausible et qu’ils comparent à une vérité à laquelle l’IA n’a pas accès, ni le souci de valider sa production vis à vis de ce critère.

      Il n’y a pas de fonctionnement distinct (erroné/défaillant) de l’IA pour une hallucination par rapport à une production jugée vraie.

      En fait toutes les productions de l’IA sont des hallucinations (vision !), seules certaines correspondent à nos critères de vérité et peuvent donc à notre guise en être exclues (par un jugement de valeur qui nous est propre) , mais de façon purement subjective, sans que le mécanisme de production soit différent.

  12. Avatar de Pascal
    Pascal

    «Je ne sens pas encore la tempête, mais les chevaux commencent à hennir dans l’enclos», prévient-il avec une poésie qui cache mal une mise en garde brutale.

    Est-ce que Pribor est prêt à chevaucher la tempête ?

    « Lloyd Blankfein fait partie de ces anciens. L’homme qui a dirigé Goldman Sachs pendant la crise des subprimes de 2008 n’est pas du genre à paniquer pour rien. Pourtant, ses récents propos rapportés par le média Futurism font froid dans le dos. Pour lui, nous ne sommes pas simplement face à une innovation technologique, mais peut-être devant un gouffre financier que nous avons nous-mêmes creusé. »
    https://www.slate.fr/economie/intelligence-artificielle-krash-boursier-risque-alarme-ancien-goldman-sachs-finance?utm_source=firefox-newtab-fr-fr

    Et il n’est visiblement pas le seul à avoir des craintes ! Dans un autre registre, celui d’un effondrement du système économique lié à la gestion des actifs boursiers confiés à des agents IA.

    « En 2028, la révolution IA aura été à ce point un succès que l’économie mondiale aura été mise K.O. par ses chatbots et autres agents algorithmiques. Telle est la conclusion d’un essai publié dimanche 22 février par Citrini Research, un blog financier. »
    « L’un des facteurs à l’origine de la chute de 800 points du Dow Jones lundi 23 février a été un texte spéculatif de 7 000 mots », résume le Wall Street Journal. « Les actions des sociétés de logiciels se font massacrer en Bourse à cause d’un post de blog », s’étonne le site d’information financière Sherwood News. »
    « Le site boursier MarketWatch, qui dépend du Wall Street Journal, se demande même à quel point les pertes boursières de 200 milliards de dollars enregistrées sur la journée de lundi sont une conséquence directe du scénario catastrophe imaginé par Citrini Research. »
    https://www.france24.com/fr/%C3%A9co-tech/20260224-sc%C3%A9nario-catastrophe-ia-fait-trembler-wall-street-logiciels-citrini

    Si l’on ajoute à cela, l’instabilité économique créée par la guerre en Iran, nous ne sommes plus très loin de l’accident intégral. Le moment de réécouter Paul Virilio : « l’accident est au cœur de notre histoire. Nous vivons un temps accidentel… Le présent s’absente dans l’instant. »
    https://www.youtube.com/watch?v=jwSWT2Lo-Nc

  13. Avatar de Pascal
    Pascal

    La concurrence est rude !
    « Le Français Yann Le Cun réussit à lever près d’un milliard d’euros pour sa start-up d’IA »
    « Après 12 ans chez Meta où il a dirigé la recherche en IA, le chercheur veut développer des modèles capables de comprendre le monde physique, via sa start-up AMI. »
    https://www.huffingtonpost.fr/tech-futurs/article/le-francais-yan-le-cun-reussit-a-lever-pres-d-un-milliard-d-euros-pour-sa-start-up-d-ia_261278.html

    1. Avatar de ez
      ez

      Écoutez bien ce que Le Cun explique. Son objectif est bien de dépasser les limites actuelles des LLMs, c’est-à-dire de démultiplier leur efficience en déployant dans la nature des unités plus ou moins autonomes qui calculent leur environnement et donc de proche en proche le monde. C’est un délire totalitaire qui vise le parachèvement de la dystopie cybernétique: tout doit être calculable est pilotable en temps réel. Bien entendu la question centrale de qui pilote au bénéfice de qui est accessoire. Ce cauchemar contient ses propres limites: la quantité de ressources dédiées à la production de données et au calcul ne peut que croitre exponentiellement.

      Voir les dernières données compilées par des chercheurs de l’université de Berkeley sur la consommation d’énergie et d’eau et l’intensité carbone des data centers aux USA et leur évolution attendues dans les toutes prochaines années.

      1. Avatar de Pascal
        Pascal

        Il faut bien se vendre aux milliardaires pour gagner des milliards ! Quitte à leur faire gober n’importe quoi !
        Un très bel exemple :
        Neom : la ville du futur tourne au cauchemar humain et environnemental
        https://sciencepost.fr/neom-la-ville-du-futur-tourne-au-cauchemar-humain-et-environnemental/

        La toute puissance de l’intellect qui recherche la toute puissance financière, dans un pur délire nihiliste.

        1. Avatar de JMarc
          JMarc

          MBS de retour sur terre ! The Line, Neom et Trojena ensablés voire abandonnés :
          https://www.lemonde.fr/international/article/2026/02/27/en-arabie-saoudite-le-retour-au-realisme-de-mbs_6668538_3210.html
          (abonnés)

  14. Avatar de ez
    ez

    Données actualisées sur la consommation d’énergie et d’eau et l’intensité carbone des data centers aux USA

    https://www.usgs.gov/media/images/key-minerals-data-centers-infographic
    https://pubs.usgs.gov/publication/mcs2025
    https://tableau.usgs.gov/views/MCS2025_Workbook_01-28-2025_Public/MCSDashboard?%3Aembed=y&%3Aiid=1&%3AisGuestRedirectFromVizportal=y
    https://pubs.usgs.gov/periodicals/mcs2025/mcs2025.pdf
    https://escholarship.org/uc/item/32d6m0d1

    Les cryptos, à elle-seules pompent presque 50 TWh en 2024, pour faire de la daube.

    Il est prévu que la consommation électrique des cryptos seules doit faire x4 à x8 d’ici 2030. Belle exponentielle! 2030 c’est demain.

    La consommation électrique dédiée à l’IA seule a fait x20 entre 2017 et 2023 alors que dans la même période le calcul et traitement de données « classiques » à fait x2.

Répondre à ilicitano Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Contact

Contactez Paul Jorion

Commentaires récents

  1. Un espoir … https://www.youtube.com/watch?v=8s3Smt2n-mM

  2. Au diable les municipales……. Gardons en tête ce gros chardon dans le col de chemise de  »  »  » la…

  3. https://www.youtube.com/watch?v=YbMJN35q1BQ

  4. Ce partage d’expérience et cette description de la thérapie est très juste et simple. L’anecdote finale sur le signifiant est…

  5. https://www.youtube.com/watch?v=2ClSfMMcEO0&list=PLwivYHfvVP-p16qAOLrianyGqs2mLqf3p&index=3

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx LLM pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés Singularité spéculation Thomas Piketty Ukraine Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta