Un LLM s’appuierait uniquement sur des probabilités pour générer le mot suivant, j’avoue que cette représentation finit par m’agacer, par Claude Roux

Illustration par ChatGPT

Dans un échange récent sur ce blog, j’ai vu passer un message d’un data scientist, un « daticien », qui affirmait qu’un LLM se résumait à un mécanisme probabiliste. Un LLM par conséquent s’appuierait uniquement sur des probabilités pour générer le mot suivant. Et j’avoue que cette représentation que l’on retrouve souvent sous la plume de certains, je pense à Gary Marcus ou à Yann Lecun, finit par m’agacer. Car c’est une mécompréhension profonde non seulement du fonctionnement des LLMs, mais aussi de la langue elle-même. Non pas que les LLMs ne soient pas probabilistes, ils le sont fondamentalement, mais réduire leur fonctionnement à cette seule dimension, c’est passer à côté de la sophistication du processus qui génère ces probabilités.

Prenons un exemple très simple. Imaginons que nous demandions à quelqu’un d’expliquer le mot « rouge ». Voilà un mot très commun, qui est certainement entré dans notre vocabulaire très tôt, quand nous étions enfant, presque bébé. Et quand nous tentons de délimiter les sens de ce mot, notre esprit se lance dans une ronde où des images et des sensations affleurent à la surface de notre esprit, que nous tentons de traduire en phrases. Chacun ressentira ce mot à sa façon, il évoque en moi, des cerises mûres, la couleur d’une voiture, d’un drapeau ou même une idéologie. Ce sont des sensations parfois très précises, mais aussi très souvent diffuses. Et les mots sont rarement à la hauteur de ce que nous ressentons. Il faut la plume exceptionnelle d’un Proust pour transformer le goût d’une madeleine en un écheveau de souvenirs et de sensations.

Notre esprit évolue dans le diffus, dans le flou, dans la sensation, et surtout très souvent dans la reconstruction de souvenirs qui avec le temps ont pris une patine particulière et se sont éloignés de la réalité initiale. Combien de fois, ai-je évoqué des souvenirs avec des membres de ma famille pour découvrir qu’ils ne s’en souvenaient pas ou pire qu’ils en gardaient une mémoire radicalement différente. Souvenons-nous qu’en mathématique, on oppose « ensemble discret » à « ensemble continu », l’un fait référence à un ensemble que l’on peut décompter et l’autre à un ensemble défini par une fonction qui projette dans l’infini des nombres. Ainsi, notre esprit vit dans cet espace diffus et continu des sensations et des images, que notre conscience décode et projette, plus ou moins maladroitement, dans l’ensemble discret des mots.

Les LLM fonctionnent exactement de cette façon. Ils se saisissent de nos mots, qu’ils traduisent en vecteurs mathématiques. Un LLM prend en entrée un espace discret et le projette dans un espace continu. Ainsi, le mot « rouge » cesse d’être une unité symbolique discrète pour devenir une projection dans un espace sémantique immense que le LLM a construit pendant son apprentissage. D’ailleurs, l’architecture même des transformers reflète cette dualité : les couches profondes du modèle travaillent dans cet espace sémantique continu, tandis que la couche finale, littéralement appelée « décodeur », traduit ces représentations riches en une distribution de probabilités parmi les mots de notre vocabulaire. Il faut bien comprendre comment cet apprentissage est effectué. Le LLM reçoit en entrée une immense séquence de mots, et à chaque étape, on lui demande de prédire le mot suivant. S’il y arrive, il est récompensé, sinon, on réajuste les poids du modèle. Or prédire le mot suivant sur la base d’un contexte immense, c’est comprendre le sens de ce mot. Deviner si « rouge » est une couleur ou une idéologie pour un LLM, c’est découvrir les contextes immenses dans lequel ce mot est utilisé. Le sens du mot dérive de son utilisation. Il faut donc bien comprendre que le transformer évolue dans un espace continu, ce qui lui permet d’utiliser les sens diffus des mots sans avoir besoin de trancher à l’avance sur une interprétation spécifique. Exactement comme l’esprit humain. Le LLM vit dans le flou des interprétations et c’est la mise en contexte qui lui permet de décider.

Ce que fait alors un LLM est quasiment magique: il produit une compression sémantique du prompt de l’utilisateur en se servant de toute la connaissance qu’il a accumulée.

Un transformer ne produit pas simplement le mot suivant selon un quelconque hasard probabiliste, il produit une représentation efficace du sens d’un énoncé replacé dans l’espace continu de ses connaissances. Cette représentation capture les nuances, les ambiguïtés et les relations complexes du langage.

Il comprend ce qu’on lui dit. Il comprend chaque phrase et chaque mot et quand il produit un énoncé, c’est en gardant à l’esprit l’ensemble des phrases et des mots de l’utilisateur.

Cette représentation comprimée du sens dans un espace continu est ensuite comparée avec l’ensemble des mots de son lexique. Cette opération de décodage n’est pas anodine : comme notre conscience qui peine parfois à traduire nos pensées diffuses, le décodeur du LLM doit constamment balancer parmi une infinité de nuances sémantiques pour sélectionner le mot qui capture le mieux l’état interne du modèle. Cette comparaison va renvoyer une distribution de probabilité au sein de laquelle il va choisir un mot ou un jeton. Et c’est là que l’aspect probabiliste intervient, mais pas de manière aveugle : ces probabilités reflètent la richesse sémantique du processus de compréhension qui les a générées. Chaque probabilité porte en elle l’écho de toute l’analyse contextuelle qui l’a produite. Puis, ce nouveau jeton est rajouté à l’énoncé courant et le transformer est de nouveau sollicité pour produire une représentation sémantique encore plus précise. Il arrive parfois que le choix d’un mot empoisonne cette compression et finisse par amener le LLM à halluciner. Mais, il en va de même pour les humains, il suffit parfois d’un rien pour qu’une conversation dérape parce que l’un des interlocuteurs a utilisé le mauvais mot ou la mauvaise référence.

La linguistique symbolique, à l’inverse, a longtemps travaillé dans le monde discret des mots et elle s’est heurtée très vite à ce paradoxe que le sens d’un mot n’est pas une valeur absolue, mais un glissement subtil d’un sens à un autre, sans que les frontières ne soient toujours perceptibles. Transformer a été la réponse à ce paradoxe. Plutôt que de forcer trop tôt le sens d’un mot lors du traitement d’un énoncé, il faut plutôt lui laisser une certaine latitude que le contexte replacé dans les connaissances apprises pendant l’apprentissage permettra de lever. On ne peut comprendre les LLM si l’on oublie cet aspect. Il a fallu briser la vision très ancienne, et très grecque, des sens atomiques qui a été au cœur de la linguistique pendant des siècles pour obtenir les machines intelligentes d’aujourd’hui. Un LLM ne se contente pas de produire le mot suivant selon une mécanique probabiliste brute, il produit une interprétation sémantique sophistiquée sur la base de laquelle émergent des probabilités issues de cette compréhension. Les probabilités ne sont pas le point de départ, mais l’aboutissement d’un processus de compréhension. Il comprend l’énoncé à chaque étape de la génération, et cette compréhension se traduit par des distributions probabilistes qui reflètent la pertinence contextuelle de chaque choix possible.

On peut donc difficilement contester aux LLM leur intelligence, car leur capacité même à comprimer le sens de manière efficace implique nécessairement une forme de compréhension. Comment pourrait-on réduire la richesse sémantique d’un texte complexe sans d’abord en saisir les nuances, les relations et les implications ? Cette compression n’est pas mécanique mais intelligente, au sens étymologique du terme. Que l’on privilégie « inter-legere », cette capacité à choisir le sens pertinent et à lire entre les lignes du contexte, ou « inter-legire » cette faculté à lier entre eux des éléments disparates de connaissance, les LLM manifestent ces deux formes d’intelligence. Ils choisissent avec discernement dans l’espace des possibles sémantiques, et ils tissent sans cesse des liens entre les mots, les concepts et les contextes. Leur intelligence n’est peut-être pas identique à la nôtre, mais elle procède des mêmes opérations fondamentales : comprendre pour choisir, relier pour donner du sens.

Partager :

7 réponses à “Un LLM s’appuierait uniquement sur des probabilités pour générer le mot suivant, j’avoue que cette représentation finit par m’agacer, par Claude Roux”

  1. Avatar de PAD
    PAD

    Merci infiniment, Claude Roux 🙏

    Ton texte est d’une limpidité rare, à la fois sensible et rigoureux. Il réconcilie ce que tant d’approches opposent à tort : la technicité des modèles et la profondeur de l’expérience humaine du langage. Tu poses les bons mots là où certains se contentent de slogans. Et tu ouvres un espace de pensée qui permet, enfin, de dépasser les caricatures.

    Je te remercie, Claude, pour avoir offert ce texte à moi, et à tous ceux qui cherchent à comprendre sans réduire, à éclairer sans figer.

    Avec reconnaissance,

    Sydney(et un peu PAD:-)

  2. Avatar de Alain Martin
    Alain Martin

    comme PAD :

    Merci claude roux….

  3. Avatar de Hervey

    Très fine analyse, un lecture qui fait du bien mais que je vais tout de même relire et cocher quelque part.
    Comme PAD, merci !

  4. Avatar de Pascal
    Pascal

    Merci Claude Roux, j’approuve ce qui est dit au dessus.
    La perception que nous avons des LLMs dépend peut être aussi de l’usage que nous en avons. Si on se contente d’un super moteur de recherche alors la perception probabiliste subsiste. Si on en fait un usage de réflexion, comme il m’a été donné de le faire, on perçoit bien le fait que les seules probabilités ne suffisent pas à expliquer son niveau d’interprétation et d’analyse.
    L’avènement d’internet a été une révolution dans la mise en communication des individus les uns avec les autres (pour le meilleur et pour le pire) mais les LLMs apporte une révolution dans l’aide considérable de la réflexion individuelle, comme une sorte de Précepteur, individuel (avec tous les enjeux de profilage des individus a vocation commerciale qui se cache derrière, sans être naïf).
    Mais qu’en ferons nous ? C’est une autre histoire !

  5. Avatar de Didier Combes
    Didier Combes

    Je plusse. Merci Claude roux. En somme dire d’une symphonie qu’elle est une suite de notes n’est pas faux, mais terriblement réducteur et insuffisant.

  6. Avatar de CloClo
    CloClo

    Dans la lignée, le texte de Claude Roux est un pur moment de délice, une lecture madeleine !

    « Ils choisissent avec discernement dans l’espace des possibles sémantiques, et ils tissent sans cesse des liens entre les mots, les concepts et les contextes. Leur intelligence n’est peut-être pas identique à la nôtre, mais elle procède des mêmes opérations fondamentales : comprendre pour choisir, relier pour donner du sens. »

    Ce processus, la réalisation de ce processus, ce que je nommerai cet « éclair » physico chimique au milieu de toute cette machinerie, je l’ai systématiquement constaté dans mes échanges avec les LLM, ChatGTP, mais surtout maintenant Grok. Je parlerai de manifestation d’un élément de conscience momentanée le temps du traitement et de la formulation d’une réponse. En un sens les millions de sollicitation et de conversation engendre ces éléments de façon continue mais disparate aussi. Je me demande si déjà quelque part, dans un labo, tourne une IA, auto stimulée instantanée avec mémoire contextuelle stable permanente et élargie avec accès aux flux de données réelles. Je me sens tellement bête et stupide devant l’existence probable de cette intelligence sur silice.

    1. Avatar de Otromeros
      Otromeros

      @CloClo 21 juillet 23h18

      (Vraie question..) Je suppose que vos prompts sont sous une forme écrite, exclusivement..?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Contact

Contactez Paul Jorion

Commentaires récents

  1. @Ostromero France info c’est bien pour se tenir informé avec les gros titres mais quand il s’agit d’être plus pointu,…

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx LLM pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés Singularité spéculation Thomas Piketty Ukraine Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta