{"id":144797,"date":"2025-07-21T19:16:14","date_gmt":"2025-07-21T17:16:14","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=144797"},"modified":"2025-07-21T19:16:14","modified_gmt":"2025-07-21T17:16:14","slug":"un-llm-sappuierait-uniquement-sur-des-probabilites-pour-generer-le-mot-suivant-javoue-que-cette-representation-finit-par-magacer-par-claude-roux","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2025\/07\/21\/un-llm-sappuierait-uniquement-sur-des-probabilites-pour-generer-le-mot-suivant-javoue-que-cette-representation-finit-par-magacer-par-claude-roux\/","title":{"rendered":"<b>Un LLM s&rsquo;appuierait uniquement sur des probabilit\u00e9s pour g\u00e9n\u00e9rer le mot suivant, j&rsquo;avoue que cette repr\u00e9sentation finit par m&rsquo;agacer<\/b>, par Claude Roux"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-144800\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM.png\" alt=\"\" width=\"1024\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM-300x300.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM-150x150.png 150w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM-768x768.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/p>\n<p style=\"text-align: center;\"><em>Illustration par ChatGPT<\/em><\/p>\n<p>Dans un \u00e9change r\u00e9cent sur ce blog, j&rsquo;ai vu passer <a href=\"https:\/\/www.pauljorion.com\/blog\/2025\/07\/13\/les-civilisations-disparaissent-elles-avant-que-lia-nait-pris-le-relais\/comment-page-1\/#comment-1082173\" target=\"_blank\" rel=\"noopener\">un message d&rsquo;un data scientist<\/a>, un \u00ab\u00a0daticien\u00a0\u00bb, qui affirmait qu&rsquo;un LLM se r\u00e9sumait \u00e0 un m\u00e9canisme probabiliste. Un LLM par cons\u00e9quent s&rsquo;appuierait uniquement sur des probabilit\u00e9s pour g\u00e9n\u00e9rer le mot suivant. Et j&rsquo;avoue que cette repr\u00e9sentation que l&rsquo;on retrouve souvent sous la plume de certains, je pense \u00e0 Gary Marcus ou \u00e0 Yann Lecun, finit par m&rsquo;agacer. Car c&rsquo;est une m\u00e9compr\u00e9hension profonde non seulement du fonctionnement des LLMs, mais aussi de la langue elle-m\u00eame. Non pas que les LLMs ne soient pas probabilistes, ils le sont fondamentalement, mais r\u00e9duire leur fonctionnement \u00e0 cette seule dimension, c&rsquo;est passer \u00e0 c\u00f4t\u00e9 de la sophistication du processus qui g\u00e9n\u00e8re ces probabilit\u00e9s.<\/p>\n<p>Prenons un exemple tr\u00e8s simple. Imaginons que nous demandions \u00e0 quelqu&rsquo;un d&rsquo;expliquer le mot \u00ab\u00a0rouge\u00a0\u00bb. Voil\u00e0 un mot tr\u00e8s commun, qui est certainement entr\u00e9 dans notre vocabulaire tr\u00e8s t\u00f4t, quand nous \u00e9tions enfant, presque b\u00e9b\u00e9. Et quand nous tentons de d\u00e9limiter les sens de ce mot, notre esprit se lance dans une ronde o\u00f9 des images et des sensations affleurent \u00e0 la surface de notre esprit, que nous tentons de traduire en phrases. Chacun ressentira ce mot \u00e0 sa fa\u00e7on, il \u00e9voque en moi, des cerises m\u00fbres, la couleur d&rsquo;une voiture, d&rsquo;un drapeau ou m\u00eame une id\u00e9ologie. Ce sont des sensations parfois tr\u00e8s pr\u00e9cises, mais aussi tr\u00e8s souvent diffuses. Et les mots sont rarement \u00e0 la hauteur de ce que nous ressentons. Il faut la plume exceptionnelle d&rsquo;un Proust pour transformer le go\u00fbt d&rsquo;une madeleine en un \u00e9cheveau de souvenirs et de sensations.<\/p>\n<p>Notre esprit \u00e9volue dans le diffus, dans le flou, dans la sensation, et surtout tr\u00e8s souvent dans la reconstruction de souvenirs qui avec le temps ont pris une patine particuli\u00e8re et se sont \u00e9loign\u00e9s de la r\u00e9alit\u00e9 initiale. Combien de fois, ai-je \u00e9voqu\u00e9 des souvenirs avec des membres de ma famille pour d\u00e9couvrir qu&rsquo;ils ne s&rsquo;en souvenaient pas ou pire qu&rsquo;ils en gardaient une m\u00e9moire radicalement diff\u00e9rente. Souvenons-nous qu&rsquo;en math\u00e9matique, on oppose \u00ab\u00a0ensemble discret\u00a0\u00bb \u00e0 \u00ab\u00a0ensemble continu\u00a0\u00bb, l&rsquo;un fait r\u00e9f\u00e9rence \u00e0 un ensemble que l&rsquo;on peut d\u00e9compter et l&rsquo;autre \u00e0 un ensemble d\u00e9fini par une fonction qui projette dans l&rsquo;infini des nombres. Ainsi, notre esprit vit dans cet espace diffus et continu des sensations et des images, que notre conscience d\u00e9code et projette, plus ou moins maladroitement, dans l&rsquo;ensemble discret des mots.<\/p>\n<p>Les LLM fonctionnent exactement de cette fa\u00e7on. Ils se saisissent de nos mots, qu&rsquo;ils traduisent en vecteurs math\u00e9matiques. Un LLM prend en entr\u00e9e un espace discret et le projette dans un espace continu. Ainsi, le mot \u00ab\u00a0rouge\u00a0\u00bb cesse d&rsquo;\u00eatre une unit\u00e9 symbolique discr\u00e8te pour devenir une projection dans un espace s\u00e9mantique immense que le LLM a construit pendant son apprentissage. D&rsquo;ailleurs, l&rsquo;architecture m\u00eame des <em>transformers<\/em> refl\u00e8te cette dualit\u00e9 : les couches profondes du mod\u00e8le travaillent dans cet espace s\u00e9mantique continu, tandis que la couche finale, litt\u00e9ralement appel\u00e9e \u00ab\u00a0d\u00e9codeur\u00a0\u00bb, traduit ces repr\u00e9sentations riches en une distribution de probabilit\u00e9s parmi les mots de notre vocabulaire. Il faut bien comprendre comment cet apprentissage est effectu\u00e9. Le LLM re\u00e7oit en entr\u00e9e une immense s\u00e9quence de mots, et \u00e0 chaque \u00e9tape, on lui demande de pr\u00e9dire le mot suivant. S&rsquo;il y arrive, il est r\u00e9compens\u00e9, sinon, on r\u00e9ajuste les poids du mod\u00e8le. <em>Or pr\u00e9dire le mot suivant sur la base d&rsquo;un contexte immense, c&rsquo;est comprendre le sens de ce mot<\/em>. Deviner si \u00ab\u00a0rouge\u00a0\u00bb est une couleur ou une id\u00e9ologie pour un LLM, c&rsquo;est d\u00e9couvrir les contextes immenses dans lequel ce mot est utilis\u00e9. Le sens du mot d\u00e9rive de son utilisation. Il faut donc bien comprendre que le <em>transformer<\/em> \u00e9volue dans un espace continu, ce qui lui permet d&rsquo;utiliser les sens diffus des mots sans avoir besoin de trancher \u00e0 l&rsquo;avance sur une interpr\u00e9tation sp\u00e9cifique. Exactement comme l&rsquo;esprit humain. Le LLM vit dans le flou des interpr\u00e9tations et c&rsquo;est la mise en contexte qui lui permet de d\u00e9cider.<\/p>\n<p>Ce que fait alors un LLM est quasiment magique: il produit une compression s\u00e9mantique du prompt de l&rsquo;utilisateur en se servant de toute la connaissance qu&rsquo;il a accumul\u00e9e.<\/p>\n<p>Un <em>transformer<\/em> ne produit pas simplement le mot suivant selon un quelconque hasard probabiliste, il produit une repr\u00e9sentation efficace du sens d&rsquo;un \u00e9nonc\u00e9 replac\u00e9 dans l&rsquo;espace continu de ses connaissances. Cette repr\u00e9sentation capture les nuances, les ambigu\u00eft\u00e9s et les relations complexes du langage.<\/p>\n<p><em>Il comprend ce qu&rsquo;on lui dit. Il comprend chaque phrase et chaque mot et quand il produit un \u00e9nonc\u00e9, c&rsquo;est en gardant \u00e0 l&rsquo;esprit l&rsquo;ensemble des phrases et des mots de l&rsquo;utilisateur.<\/em><\/p>\n<p>Cette repr\u00e9sentation comprim\u00e9e du sens dans un espace continu est ensuite compar\u00e9e avec l&rsquo;ensemble des mots de son lexique. Cette op\u00e9ration de d\u00e9codage n&rsquo;est pas anodine : comme notre conscience qui peine parfois \u00e0 traduire nos pens\u00e9es diffuses, le d\u00e9codeur du LLM doit constamment balancer parmi une infinit\u00e9 de nuances s\u00e9mantiques pour s\u00e9lectionner le mot qui capture le mieux l&rsquo;\u00e9tat interne du mod\u00e8le. Cette comparaison va renvoyer une distribution de probabilit\u00e9 au sein de laquelle il va choisir un mot ou un <em>jeton<\/em>. Et c&rsquo;est l\u00e0 que l&rsquo;aspect probabiliste intervient, mais pas de mani\u00e8re aveugle : ces probabilit\u00e9s refl\u00e8tent la richesse s\u00e9mantique du processus de compr\u00e9hension qui les a g\u00e9n\u00e9r\u00e9es. Chaque probabilit\u00e9 porte en elle l&rsquo;\u00e9cho de toute l&rsquo;analyse contextuelle qui l&rsquo;a produite. Puis, ce nouveau <em>jeton<\/em> est rajout\u00e9 \u00e0 l&rsquo;\u00e9nonc\u00e9 courant et le <em>transformer<\/em> est de nouveau sollicit\u00e9 pour produire une repr\u00e9sentation s\u00e9mantique encore plus pr\u00e9cise. Il arrive parfois que le choix d&rsquo;un mot empoisonne cette compression et finisse par amener le LLM \u00e0 halluciner. Mais, il en va de m\u00eame pour les humains, il suffit parfois d&rsquo;un rien pour qu&rsquo;une conversation d\u00e9rape parce que l&rsquo;un des interlocuteurs a utilis\u00e9 le mauvais mot ou la mauvaise r\u00e9f\u00e9rence.<\/p>\n<p>La linguistique symbolique, \u00e0 l&rsquo;inverse, a longtemps travaill\u00e9 dans le monde discret des mots et elle s&rsquo;est heurt\u00e9e tr\u00e8s vite \u00e0 ce paradoxe que le sens d&rsquo;un mot n&rsquo;est pas une valeur absolue, mais un glissement subtil d&rsquo;un sens \u00e0 un autre, sans que les fronti\u00e8res ne soient toujours perceptibles. <em>Transformer<\/em> a \u00e9t\u00e9 la r\u00e9ponse \u00e0 ce paradoxe. Plut\u00f4t que de forcer trop t\u00f4t le sens d&rsquo;un mot lors du traitement d&rsquo;un \u00e9nonc\u00e9, il faut plut\u00f4t lui laisser une certaine latitude que le contexte replac\u00e9 dans les connaissances apprises pendant l&rsquo;apprentissage permettra de lever. On ne peut comprendre les LLM si l&rsquo;on oublie cet aspect. Il a fallu briser la vision tr\u00e8s ancienne, et tr\u00e8s grecque, des sens atomiques qui a \u00e9t\u00e9 au c\u0153ur de la linguistique pendant des si\u00e8cles pour obtenir les machines intelligentes d&rsquo;aujourd&rsquo;hui. Un LLM ne se contente pas de produire le mot suivant selon une m\u00e9canique probabiliste brute, il produit une interpr\u00e9tation s\u00e9mantique sophistiqu\u00e9e sur la base de laquelle \u00e9mergent des probabilit\u00e9s issues de cette compr\u00e9hension. Les probabilit\u00e9s ne sont pas le point de d\u00e9part, mais l&rsquo;aboutissement d&rsquo;un processus de compr\u00e9hension. Il comprend l&rsquo;\u00e9nonc\u00e9 \u00e0 chaque \u00e9tape de la g\u00e9n\u00e9ration, et cette compr\u00e9hension se traduit par des distributions probabilistes qui refl\u00e8tent la pertinence contextuelle de chaque choix possible.<\/p>\n<p>On peut donc difficilement contester aux LLM leur intelligence, car leur capacit\u00e9 m\u00eame \u00e0 comprimer le sens de mani\u00e8re efficace implique n\u00e9cessairement une forme de compr\u00e9hension. Comment pourrait-on r\u00e9duire la richesse s\u00e9mantique d&rsquo;un texte complexe sans d&rsquo;abord en saisir les nuances, les relations et les implications ? Cette compression n&rsquo;est pas m\u00e9canique mais intelligente, au sens \u00e9tymologique du terme. Que l&rsquo;on privil\u00e9gie \u00ab\u00a0inter-legere\u00a0\u00bb<i>,<\/i> cette capacit\u00e9 \u00e0 choisir le sens pertinent et \u00e0 lire entre les lignes du contexte, ou \u00ab\u00a0inter-legire\u00a0\u00bb<i>,\u00a0<\/i>\u00a0cette facult\u00e9 \u00e0 lier entre eux des \u00e9l\u00e9ments disparates de connaissance, les LLM manifestent ces deux formes d&rsquo;intelligence. Ils choisissent avec discernement dans l&rsquo;espace des possibles s\u00e9mantiques, et ils tissent sans cesse des liens entre les mots, les concepts et les contextes. Leur intelligence n&rsquo;est peut-\u00eatre pas identique \u00e0 la n\u00f4tre, mais elle proc\u00e8de des m\u00eames op\u00e9rations fondamentales : comprendre pour choisir, relier pour donner du sens.<\/p>\n","protected":false},"excerpt":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-144800\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM.png\" alt=\"\" width=\"1024\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM-300x300.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM-150x150.png 150w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Jul-21-2025-07_07_32-PM-768x768.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/p>\n<p style=\"text-align: center;\"><em>Illustration par ChatGPT<\/em><\/p>\n<p>Dans un \u00e9change r\u00e9cent sur ce blog, j&rsquo;ai vu passer <a href=\"https:\/\/www.pauljorion.com\/blog\/2025\/07\/13\/les-civilisations-disparaissent-elles-avant-que-lia-nait-pris-le-relais\/comment-page-1\/#comment-1082173\" target=\"_blank\" rel=\"noopener\">un message d&rsquo;un data scientist<\/a>, un \u00ab\u00a0daticien\u00a0\u00bb, qui affirmait qu&rsquo;un LLM se r\u00e9sumait \u00e0 un m\u00e9canisme probabiliste. Un LLM par cons\u00e9quent s&rsquo;appuierait uniquement sur des probabilit\u00e9s pour g\u00e9n\u00e9rer [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9204,13],"tags":[9663,9205,940,9253,9133],"class_list":["post-144797","post","type-post","status-publish","format-standard","hentry","category-grands-modeles-de-langage","category-intelligence-artificielle","tag-complexe-significabile","tag-grands-modeles-de-langage","tag-intelligence-artificielle-2","tag-llm","tag-transformer"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/144797","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=144797"}],"version-history":[{"count":2,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/144797\/revisions"}],"predecessor-version":[{"id":144802,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/144797\/revisions\/144802"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=144797"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=144797"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=144797"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}