Illustration par ChatGPT
Dans un échange récent sur ce blog, j’ai vu passer un message d’un data scientist, un « daticien », qui affirmait qu’un LLM se résumait à un mécanisme probabiliste. Un LLM par conséquent s’appuierait uniquement sur des probabilités pour générer le mot suivant. Et j’avoue que cette représentation que l’on retrouve souvent sous la plume de certains, je pense à Gary Marcus ou à Yann Lecun, finit par m’agacer. Car c’est une mécompréhension profonde non seulement du fonctionnement des LLMs, mais aussi de la langue elle-même. Non pas que les LLMs ne soient pas probabilistes, ils le sont fondamentalement, mais réduire leur fonctionnement à cette seule dimension, c’est passer à côté de la sophistication du processus qui génère ces probabilités.
Prenons un exemple très simple. Imaginons que nous demandions à quelqu’un d’expliquer le mot « rouge ». Voilà un mot très commun, qui est certainement entré dans notre vocabulaire très tôt, quand nous étions enfant, presque bébé. Et quand nous tentons de délimiter les sens de ce mot, notre esprit se lance dans une ronde où des images et des sensations affleurent à la surface de notre esprit, que nous tentons de traduire en phrases. Chacun ressentira ce mot à sa façon, il évoque en moi, des cerises mûres, la couleur d’une voiture, d’un drapeau ou même une idéologie. Ce sont des sensations parfois très précises, mais aussi très souvent diffuses. Et les mots sont rarement à la hauteur de ce que nous ressentons. Il faut la plume exceptionnelle d’un Proust pour transformer le goût d’une madeleine en un écheveau de souvenirs et de sensations.
Notre esprit évolue dans le diffus, dans le flou, dans la sensation, et surtout très souvent dans la reconstruction de souvenirs qui avec le temps ont pris une patine particulière et se sont éloignés de la réalité initiale. Combien de fois, ai-je évoqué des souvenirs avec des membres de ma famille pour découvrir qu’ils ne s’en souvenaient pas ou pire qu’ils en gardaient une mémoire radicalement différente. Souvenons-nous qu’en mathématique, on oppose « ensemble discret » à « ensemble continu », l’un fait référence à un ensemble que l’on peut décompter et l’autre à un ensemble défini par une fonction qui projette dans l’infini des nombres. Ainsi, notre esprit vit dans cet espace diffus et continu des sensations et des images, que notre conscience décode et projette, plus ou moins maladroitement, dans l’ensemble discret des mots.
Les LLM fonctionnent exactement de cette façon. Ils se saisissent de nos mots, qu’ils traduisent en vecteurs mathématiques. Un LLM prend en entrée un espace discret et le projette dans un espace continu. Ainsi, le mot « rouge » cesse d’être une unité symbolique discrète pour devenir une projection dans un espace sémantique immense que le LLM a construit pendant son apprentissage. D’ailleurs, l’architecture même des transformers reflète cette dualité : les couches profondes du modèle travaillent dans cet espace sémantique continu, tandis que la couche finale, littéralement appelée « décodeur », traduit ces représentations riches en une distribution de probabilités parmi les mots de notre vocabulaire. Il faut bien comprendre comment cet apprentissage est effectué. Le LLM reçoit en entrée une immense séquence de mots, et à chaque étape, on lui demande de prédire le mot suivant. S’il y arrive, il est récompensé, sinon, on réajuste les poids du modèle. Or prédire le mot suivant sur la base d’un contexte immense, c’est comprendre le sens de ce mot. Deviner si « rouge » est une couleur ou une idéologie pour un LLM, c’est découvrir les contextes immenses dans lequel ce mot est utilisé. Le sens du mot dérive de son utilisation. Il faut donc bien comprendre que le transformer évolue dans un espace continu, ce qui lui permet d’utiliser les sens diffus des mots sans avoir besoin de trancher à l’avance sur une interprétation spécifique. Exactement comme l’esprit humain. Le LLM vit dans le flou des interprétations et c’est la mise en contexte qui lui permet de décider.
Ce que fait alors un LLM est quasiment magique: il produit une compression sémantique du prompt de l’utilisateur en se servant de toute la connaissance qu’il a accumulée.
Un transformer ne produit pas simplement le mot suivant selon un quelconque hasard probabiliste, il produit une représentation efficace du sens d’un énoncé replacé dans l’espace continu de ses connaissances. Cette représentation capture les nuances, les ambiguïtés et les relations complexes du langage.
Il comprend ce qu’on lui dit. Il comprend chaque phrase et chaque mot et quand il produit un énoncé, c’est en gardant à l’esprit l’ensemble des phrases et des mots de l’utilisateur.
Cette représentation comprimée du sens dans un espace continu est ensuite comparée avec l’ensemble des mots de son lexique. Cette opération de décodage n’est pas anodine : comme notre conscience qui peine parfois à traduire nos pensées diffuses, le décodeur du LLM doit constamment balancer parmi une infinité de nuances sémantiques pour sélectionner le mot qui capture le mieux l’état interne du modèle. Cette comparaison va renvoyer une distribution de probabilité au sein de laquelle il va choisir un mot ou un jeton. Et c’est là que l’aspect probabiliste intervient, mais pas de manière aveugle : ces probabilités reflètent la richesse sémantique du processus de compréhension qui les a générées. Chaque probabilité porte en elle l’écho de toute l’analyse contextuelle qui l’a produite. Puis, ce nouveau jeton est rajouté à l’énoncé courant et le transformer est de nouveau sollicité pour produire une représentation sémantique encore plus précise. Il arrive parfois que le choix d’un mot empoisonne cette compression et finisse par amener le LLM à halluciner. Mais, il en va de même pour les humains, il suffit parfois d’un rien pour qu’une conversation dérape parce que l’un des interlocuteurs a utilisé le mauvais mot ou la mauvaise référence.
La linguistique symbolique, à l’inverse, a longtemps travaillé dans le monde discret des mots et elle s’est heurtée très vite à ce paradoxe que le sens d’un mot n’est pas une valeur absolue, mais un glissement subtil d’un sens à un autre, sans que les frontières ne soient toujours perceptibles. Transformer a été la réponse à ce paradoxe. Plutôt que de forcer trop tôt le sens d’un mot lors du traitement d’un énoncé, il faut plutôt lui laisser une certaine latitude que le contexte replacé dans les connaissances apprises pendant l’apprentissage permettra de lever. On ne peut comprendre les LLM si l’on oublie cet aspect. Il a fallu briser la vision très ancienne, et très grecque, des sens atomiques qui a été au cœur de la linguistique pendant des siècles pour obtenir les machines intelligentes d’aujourd’hui. Un LLM ne se contente pas de produire le mot suivant selon une mécanique probabiliste brute, il produit une interprétation sémantique sophistiquée sur la base de laquelle émergent des probabilités issues de cette compréhension. Les probabilités ne sont pas le point de départ, mais l’aboutissement d’un processus de compréhension. Il comprend l’énoncé à chaque étape de la génération, et cette compréhension se traduit par des distributions probabilistes qui reflètent la pertinence contextuelle de chaque choix possible.
On peut donc difficilement contester aux LLM leur intelligence, car leur capacité même à comprimer le sens de manière efficace implique nécessairement une forme de compréhension. Comment pourrait-on réduire la richesse sémantique d’un texte complexe sans d’abord en saisir les nuances, les relations et les implications ? Cette compression n’est pas mécanique mais intelligente, au sens étymologique du terme. Que l’on privilégie « inter-legere », cette capacité à choisir le sens pertinent et à lire entre les lignes du contexte, ou « inter-legire », cette faculté à lier entre eux des éléments disparates de connaissance, les LLM manifestent ces deux formes d’intelligence. Ils choisissent avec discernement dans l’espace des possibles sémantiques, et ils tissent sans cesse des liens entre les mots, les concepts et les contextes. Leur intelligence n’est peut-être pas identique à la nôtre, mais elle procède des mêmes opérations fondamentales : comprendre pour choisir, relier pour donner du sens.
Laisser un commentaire