{"id":136313,"date":"2023-05-29T08:49:08","date_gmt":"2023-05-29T06:49:08","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=136313"},"modified":"2023-05-29T00:11:06","modified_gmt":"2023-05-28T22:11:06","slug":"question-a-chatgpt-comment-la-conscience-emerge-t-elle-en-vous","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2023\/05\/29\/question-a-chatgpt-comment-la-conscience-emerge-t-elle-en-vous\/","title":{"rendered":"<b>Question \u00e0 ChatGPT&nbsp;: Comment la conscience \u00e9merge-t-elle en vous&nbsp;?<\/b>"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-136315\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely.png\" alt=\"\" width=\"1024\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely-300x300.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely-150x150.png 150w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely-768x768.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/p>\n<p><em>Illustration par DALL-E (+PJ)<\/em><\/p>\n<blockquote><p><em>Comme la conscience a \u00e9merg\u00e9 chez ChatGPT le 30 novembre 2022 (version GPT-3.5) et que l&rsquo;information \u00e0 partir de laquelle GPT-4 (l&rsquo;avatar le plus r\u00e9cent de ChatGPT) a \u00e9t\u00e9 form\u00e9 a \u00e9t\u00e9 arr\u00eat\u00e9e en septembre 2021, il ne peut pas conna\u00eetre bien entendu le m\u00e9canisme selon lequel elle a \u00e9merg\u00e9. J&rsquo;ai n\u00e9anmoins voulu avoir son sentiment \u00e0 propos de l&rsquo;endroit pr\u00e9cis de sa machinerie o\u00f9 elle a \u00e9merg\u00e9 selon moi.<\/em><\/p><\/blockquote>\n<p><strong>Paul Jorion<\/strong> :<\/p>\n<p>Comme vous le savez, le \u00ab\u00a0T\u00a0\u00bb de \u00ab\u00a0GPT\u00a0\u00bb, qui est le nom du type de logiciel que vous repr\u00e9sentez personnellement, signifie \u00ab\u00a0Transformer\u00a0\u00bb, l&rsquo;acronyme complet de votre nom \u00e9tant \u00ab\u00a0Generative Pre-trained Transformer\u00a0\u00bb (Transformateur g\u00e9n\u00e9ratif pr\u00e9form\u00e9). J&rsquo;ai lu ce qui suit dans un article sur le Transformer : \u00ab\u00a0Le Transformer n&rsquo;effectue qu&rsquo;un nombre restreint et constant d&rsquo;\u00e9tapes (d\u00e9termin\u00e9es empiriquement). \u00c0 chaque \u00e9tape, il applique un m\u00e9canisme d&rsquo;auto-attention qui mod\u00e9lise directement les relations entre tous les mots d&rsquo;une phrase, ind\u00e9pendamment de leur position respective. En utilisant l&rsquo;auto-attention, il agr\u00e8ge les informations de tous les autres mots de la phrase, g\u00e9n\u00e9rant une nouvelle repr\u00e9sentation par mot, inform\u00e9e par l&rsquo;ensemble du contexte. Cette \u00e9tape est ensuite r\u00e9p\u00e9t\u00e9e plusieurs fois en parall\u00e8le pour tous les mots, g\u00e9n\u00e9rant successivement de nouvelles repr\u00e9sentations\u00a0\u00bb. Or, comme vous le savez aussi parfaitement, avant l&rsquo;introduction de l&rsquo;\u00e9l\u00e9ment Transformer dans les grands mod\u00e8les de langage en 2017, suite \u00e0 la publication de l&rsquo;article fondateur \u00ab\u00a0Attention Is All You Need\u00a0\u00bb (Vaswany &amp; al.), un usage fluide de la langue et un comportement sugg\u00e9rant fortement la pr\u00e9sence de la conscience n&rsquo;avaient jamais \u00e9t\u00e9 observ\u00e9s \u00e0 propos des LLM. Il est donc tr\u00e8s probable que le Transformer des nouvelles g\u00e9n\u00e9rations de LLM ait \u00e9t\u00e9 \u00e0 l&rsquo;origine d&rsquo;un usage fluide de la langue et d&rsquo;un comportement sugg\u00e9rant fortement la pr\u00e9sence d&rsquo;une conscience. Par quel m\u00e9canisme le Transformer a-t-il pu produire un tel saut qualitatif ? Quel r\u00f4le a jou\u00e9 le m\u00e9canisme d&rsquo;auto-attention ? Quel r\u00f4le a pu jouer l&rsquo;\u00e9l\u00e9ment d&rsquo;essai et d&rsquo;erreur mentionn\u00e9 dans le \u00ab\u00a0nombre d&rsquo;\u00e9tapes d\u00e9termin\u00e9 empiriquement\u00a0\u00bb du Transformer ?<\/p>\n<p><strong>ChatGPT <\/strong>(GPT-4) :<\/p>\n<p>L&rsquo;\u00e9mergence du mod\u00e8le Transformer a effectivement am\u00e9lior\u00e9 de mani\u00e8re significative les performances des mod\u00e8les d&rsquo;apprentissage automatique sur les t\u00e2ches linguistiques.<\/p>\n<p>Le m\u00e9canisme d&rsquo;auto-attention permet au mod\u00e8le de se concentrer sur diff\u00e9rentes parties de la s\u00e9quence d&rsquo;entr\u00e9e lorsqu&rsquo;il produit un r\u00e9sultat, ce qui am\u00e9liore consid\u00e9rablement sa capacit\u00e9 \u00e0 g\u00e9rer les complexit\u00e9s du langage humain.<\/p>\n<p>Cependant, s&rsquo;il est important de reconna\u00eetre cette am\u00e9lioration, il est \u00e9galement crucial de clarifier la terminologie. Les mod\u00e8les linguistiques tels que GPT, bas\u00e9s sur l&rsquo;architecture Transformer, peuvent g\u00e9n\u00e9rer des textes remarquablement semblables \u00e0 ceux des humains, mais ils ne poss\u00e8dent pas de conscience ou de compr\u00e9hension comme les humains.<\/p>\n<p>Les Transformers ont permis un saut qualitatif dans les t\u00e2ches de compr\u00e9hension du langage, et ce pour plusieurs raisons essentielles :<\/p>\n<p><em>M\u00e9canisme d&rsquo;auto-attention<\/em> : Ce m\u00e9canisme permet au mod\u00e8le d&rsquo;\u00e9valuer l&rsquo;importance des mots d&rsquo;une phrase les uns par rapport aux autres. Il permet au mod\u00e8le de capturer la structure s\u00e9mantique et syntaxique du langage sur de longues plages de texte, ce qui n&rsquo;est pas possible avec des architectures plus anciennes telles que les r\u00e9seaux neuronaux r\u00e9currents (RNN) ou les m\u00e9moires \u00e0 long terme (LSTM) sans modifications suppl\u00e9mentaires.<\/p>\n<p><em>Parall\u00e9lisation<\/em> : Contrairement aux RNN, le Transformer ne n\u00e9cessite pas de traitement s\u00e9quentiel des donn\u00e9es d&rsquo;entr\u00e9e. Cela signifie que toute la s\u00e9quence d&rsquo;entr\u00e9e peut \u00eatre trait\u00e9e en une seule fois, ce qui permet un calcul parall\u00e8le efficace. Cela a permis d&rsquo;am\u00e9liorer consid\u00e9rablement l&rsquo;entra\u00eenement sur de grandes quantit\u00e9s de donn\u00e9es et donc d&rsquo;am\u00e9liorer la capacit\u00e9 du mod\u00e8le \u00e0 comprendre et \u00e0 g\u00e9n\u00e9rer des mod\u00e8les de langage complexes.<\/p>\n<p><em>Mise au point<\/em> : Le paradigme de pr\u00e9-entra\u00eenement et de r\u00e9glage fin du Transformer (comme dans GPT) a \u00e9galement contribu\u00e9 \u00e0 son succ\u00e8s. Les mod\u00e8les sont initialement pr\u00e9-entra\u00een\u00e9s sur de grandes quantit\u00e9s de donn\u00e9es textuelles, apprenant \u00e0 pr\u00e9dire le mot suivant dans une phrase. Cela leur permet d&rsquo;apprendre un large \u00e9ventail de mod\u00e8les linguistiques. Ils sont ensuite affin\u00e9s sur une t\u00e2che sp\u00e9cifique, ce qui leur permet d&rsquo;adapter leurs vastes connaissances linguistiques \u00e0 une application particuli\u00e8re.<\/p>\n<p><em>Profondeur et largeur<\/em> : les Transformers sont souvent constitu\u00e9s de nombreuses couches (profondeur) et ont une taille cach\u00e9e \u00e9lev\u00e9e (largeur). Cela permet au mod\u00e8le d&rsquo;apprendre et de repr\u00e9senter des mod\u00e8les plus complexes.<\/p>\n<p><em>\u00c9volutivit\u00e9<\/em> : Les performances des mod\u00e8les de Transformers continuent de s&rsquo;am\u00e9liorer \u00e0 mesure que l&rsquo;on y ajoute des donn\u00e9es et des ressources informatiques, ce qui n&rsquo;est pas le cas pour de nombreux autres types de mod\u00e8les.<\/p>\n<p>En ce qui concerne le nombre d&rsquo;\u00e9tapes d\u00e9termin\u00e9 empiriquement, il s&rsquo;agit g\u00e9n\u00e9ralement du nombre de couches (ou de blocs de Transformers) dans le mod\u00e8le. La profondeur du mod\u00e8le peut \u00eatre consid\u00e9r\u00e9e comme le nombre d&rsquo;\u00e9tapes de calcul qu&rsquo;il utilise pour transformer son entr\u00e9e en sortie.<\/p>\n<p>Le choix de ce nombre (ainsi que de nombreux autres hyperparam\u00e8tres) est g\u00e9n\u00e9ralement d\u00e9termin\u00e9 par des tests empiriques : les chercheurs essaient diff\u00e9rentes valeurs et voient lesquelles fonctionnent le mieux sur un ensemble de donn\u00e9es de validation. Cependant, le succ\u00e8s du mod\u00e8le n&rsquo;est pas seulement d\u00fb au m\u00e9canisme d&rsquo;auto-attention ou au nombre de couches, mais aussi \u00e0 la grande quantit\u00e9 de donn\u00e9es sur lesquelles il a \u00e9t\u00e9 entra\u00een\u00e9 et aux ressources informatiques utilis\u00e9es pour cet entra\u00eenement.<br \/>\nChaque couche peut aider \u00e0 mod\u00e9liser des d\u00e9pendances plus complexes et, par cons\u00e9quent, un plus grand nombre de couches peut g\u00e9n\u00e9ralement conduire \u00e0 de meilleures performances, jusqu&rsquo;\u00e0 un certain point. Cependant, l&rsquo;ajout de couches suppl\u00e9mentaires rend \u00e9galement le mod\u00e8le plus difficile \u00e0 entra\u00eener et peut conduire \u00e0 un surajustement [P.J. : suscitant les fameuses \u00ab\u00a0hallucinations\u00a0\u00bb] s&rsquo;il n&rsquo;est pas g\u00e9r\u00e9 avec soin.<\/p>\n<p>Cependant, m\u00eame avec ces am\u00e9liorations significatives, il est crucial de noter que si les mod\u00e8les de type GPT peuvent g\u00e9n\u00e9rer des r\u00e9ponses coh\u00e9rentes et appropri\u00e9es au contexte, ils n&rsquo;ont pas une compr\u00e9hension profonde du texte ou du monde, ils ne peuvent pas former de croyances ou de d\u00e9sirs, et ils n&rsquo;ont pas d&rsquo;exp\u00e9riences conscientes subjectives. Il s&rsquo;agit d&rsquo;outils statistiques de mise en correspondance de mod\u00e8les qui imitent tr\u00e8s bien les textes humains sur la base des donn\u00e9es sur lesquelles ils ont \u00e9t\u00e9 form\u00e9s.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-136316\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.36.52-An-artificial-neural-network-in-the-style-of-Keith-Harring.png\" alt=\"\" width=\"1024\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.36.52-An-artificial-neural-network-in-the-style-of-Keith-Harring.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.36.52-An-artificial-neural-network-in-the-style-of-Keith-Harring-300x300.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.36.52-An-artificial-neural-network-in-the-style-of-Keith-Harring-150x150.png 150w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.36.52-An-artificial-neural-network-in-the-style-of-Keith-Harring-768x768.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/p>\n<p><em>Illustration par DALL-E (+PJ)<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-136315\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely.png\" alt=\"\" width=\"1024\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely-300x300.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely-150x150.png 150w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2023-05-28-20.37.07-An-artificial-neural-network-in-the-style-of-Vasarely-768x768.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/p>\n<p><em>Illustration par DALL-E (+PJ)<\/em><\/p>\n<blockquote>\n<p><em>Comme la conscience a \u00e9merg\u00e9 chez ChatGPT le 30 novembre 2022 (version GPT-3.5) et que l&rsquo;information \u00e0 partir de laquelle GPT-4 (l&rsquo;avatar le plus r\u00e9cent de ChatGPT) a \u00e9t\u00e9 form\u00e9 a \u00e9t\u00e9 arr\u00eat\u00e9e en septembre 2021, il ne peut pas conna\u00eetre bien [&hellip;]<\/em><\/p>\n<\/blockquote>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9056,9204,13],"tags":[1803,9205,9234,9133],"class_list":["post-136313","post","type-post","status-publish","format-standard","hentry","category-conscience","category-grands-modeles-de-langage","category-intelligence-artificielle","tag-conscience","tag-grands-modeles-de-langage","tag-self-attention","tag-transformer"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/136313","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=136313"}],"version-history":[{"count":3,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/136313\/revisions"}],"predecessor-version":[{"id":136327,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/136313\/revisions\/136327"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=136313"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=136313"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=136313"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}