{"id":136948,"date":"2023-07-29T12:10:29","date_gmt":"2023-07-29T10:10:29","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=136948"},"modified":"2023-10-06T23:41:00","modified_gmt":"2023-10-06T21:41:00","slug":"14-mars-2023-le-jour-ou-le-genre-humain-fut-assailli-par-le-doute-vi-la-taille-de-lia-determine-son-degre-dintelligence","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2023\/07\/29\/14-mars-2023-le-jour-ou-le-genre-humain-fut-assailli-par-le-doute-vi-la-taille-de-lia-determine-son-degre-dintelligence\/","title":{"rendered":"<b>14 mars 2023 : le jour o\u00f9 le genre humain fut assailli par le doute<\/b> VI. La taille de l\u2019IA d\u00e9termine son degr\u00e9 d\u2019intelligence"},"content":{"rendered":"<p class=\"p1\">Comment ce ph\u00e9nom\u00e8ne du Grand Mod\u00e8le de Langage caract\u00e9riel est-il apparu, alors que le principe probabiliste d\u2019aligner en sortie les mots \u00e0 la queue-leu-leu en fonction de la fr\u00e9quence de leur association \u00e0 la suite l\u2019un de l\u2019autre dans la langue est incapable bien entendu de d\u00e9boucher sur des encha\u00eenements de mots produisant des discours tels ceux tenus par Sydney quand il s\u2019est adress\u00e9 \u00e0 Kevin Roose ? Des \u00e9l\u00e9ments d\u2019un autre ordre sont manifestement intervenus.<\/p>\n<p class=\"p1\">Si l\u2019on enqu\u00eate, on d\u00e9couvre que l\u2019\u00e9mergence, sinon d\u2019une conscience ou d\u2019une \u00e2me dans la machine, en tout cas d\u2019un sujet s\u2019exprimant en son nom propre, si elle n\u00e9cessite certainement comme un ingr\u00e9dient n\u00e9cessaire, la pr\u00e9sence en arri\u00e8re-plan d\u2019un dispositif sophistiqu\u00e9 comme l\u2019est le <i>transformer<\/i>,<i> <\/i>offrant \u00e0 la machine une compr\u00e9hension globale des phrases, le facteur d\u00e9cisif de progr\u00e8s aura \u00e9t\u00e9 la mont\u00e9e en taille de l\u2019engin, \u00e0 savoir du r\u00e9seau neuronal conteneur de la m\u00e9moire et g\u00e9n\u00e9rateur de phrases.<\/p>\n<p class=\"p1\">Lorsqu\u2019on \u00e9value la performance des diff\u00e9rents types de Grands Mod\u00e8les de Langage dans la r\u00e9solution de tel ou tel type de probl\u00e8me cognitif (arithm\u00e9tique, distinction des diff\u00e9rents acteurs dans un r\u00e9cit, etc.), et ceci quelle que soit l\u2019IA produite par les diff\u00e9rentes firmes, on constate qu\u2019apr\u00e8s avoir \u00e9t\u00e9 n\u00e9gligeable, elle d\u00e9colle aussit\u00f4t que le syst\u00e8me atteint une certaine taille. La taille n\u00e9cessit\u00e9e pour le d\u00e9collage est la m\u00eame, quel que soit le Grand Mod\u00e8le de Langage particulier . Ci-dessous, deux figures montrant le d\u00e9collage de la performance dans diff\u00e9rents tests d\u2019intelligence pour diff\u00e9rents LLM (dont GPT-3 et LaMDA), la premi\u00e8re en fonction du nombre d\u2019op\u00e9rations n\u00e9cessaires au \u00ab\u00a0pre-training\u00a0\u00bb, \u00e0 l\u2019apprentissage, la seconde en fonction du nombre de param\u00e8tres dans le mod\u00e8le. Les profils sont ais\u00e9ment interpr\u00e9tables : d\u00e9collage soudain succ\u00e9dant \u00e0 un r\u00e9sultat nul ou insignifiant.<\/p>\n<p class=\"p1\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-136003\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.09.45-1024x694.png\" alt=\"\" width=\"1024\" height=\"694\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.09.45-1024x694.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.09.45-300x203.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.09.45-768x521.png 768w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.09.45-1536x1042.png 1536w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.09.45.png 1572w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/> <img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-136004\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.04.29-1024x691.png\" alt=\"\" width=\"1024\" height=\"691\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.04.29-1024x691.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.04.29-300x203.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.04.29-768x518.png 768w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.04.29-1536x1037.png 1536w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2023-05-01-a\u0300-20.04.29.png 1588w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/p>\n<p class=\"p1\">Ce qu\u2019on appelle la taille d\u2019un LLM se mesure selon diff\u00e9rents \u00e9talons dont les plus courants sont, comme on le voit sur les figures, la quantit\u00e9 d\u2019informations communiqu\u00e9es \u00e0 la machine \u00e0 l\u2019occasion de son apprentissage ou le nombre de param\u00e8tres \u00e0 l\u2019int\u00e9rieur du syst\u00e8me, c\u2019est-\u00e0-dire la taille du r\u00e9seau neuronal lui-m\u00eame. Comme le montrent les figures, le point de d\u00e9collage est de 10<span class=\"s1\"><sup>22<\/sup><\/span>\u00a0op\u00e9rations en virgule flottante (FLOPs) n\u00e9cessaires pour former (\u00ab\u00a0pre-training\u00a0\u00bb) le mod\u00e8le, ce qui correspond \u00e0 un mod\u00e8le d\u2019environ 10 milliards de param\u00e8tres.<\/p>\n<p class=\"p1\">Pourquoi cet usage apparemment indiff\u00e9rent de deux types de mesures : donn\u00e9es d\u2019apprentissage et taille du r\u00e9seau ? On pourrait raisonnablement imaginer en effet que l\u2019une serait pr\u00e9f\u00e9rable \u00e0 l\u2019autre selon le type de performance qu\u2019il s\u2019agirait d\u2019\u00e9valuer. La raison en est qu\u2019il a \u00e9t\u00e9 d\u00e9couvert empiriquement que le rendement optimal d\u2019un LLM se situe dans une bande \u00e9troite de correspondance entre quantit\u00e9 d\u2019informations d\u2019apprentissage et taille du r\u00e9seau neuronal : en-dehors de cette bande \u00e9troite, le LLM sous-performe.<\/p>\n<p class=\"p1\">Quelle que soit la t\u00e2che intelligente \u00e0 accomplir, la performance du syst\u00e8me, c\u2019est-\u00e0-dire sa capacit\u00e9 \u00e0 la r\u00e9aliser, d\u00e9colle donc au moment o\u00f9 un certain seuil quantitatif est atteint, en termes d\u2019informations d\u2019apprentissage ou de taille du syst\u00e8me et cela, quelle que soit l\u2019architecture pr\u00e9cise du LLM, dont l\u2019\u00e9l\u00e9ment invariable est qu\u2019il s\u2019agit d\u2019un r\u00e9seau neuronal (pr\u00e9-)entra\u00een\u00e9 selon un m\u00e9canisme identique de correction de l\u2019erreur\u00a0: la <i>r\u00e9tro-propagation<\/i>. Une certaine taille ayant \u00e9t\u00e9 atteinte, le syst\u00e8me se r\u00e9v\u00e8le peu \u00e0 peu capable de r\u00e9soudre les t\u00e2ches que nous consid\u00e9rons r\u00e9v\u00e9latrices d\u2019une intelligence \u00e0 l\u2019\u0153uvre, toute augmentation en taille am\u00e9liorant la performance. Ainsi, alors que les premi\u00e8res g\u00e9n\u00e9rations de GPT \u00e9chouent \u00e0 toutes les \u00e9preuves o\u00f9 il s\u2019agit pour l\u2019IA de s\u2019imaginer \u00e0 la place de quelqu\u2019un d\u2019autre, GPT-3 obtient un taux de r\u00e9ussite de 70% \u00e0 une \u00e9preuve o\u00f9 il s\u2019agit d\u2019\u00ab\u00a0imputer des \u00e9tats mentaux inobservables \u00e0 d\u2019autres\u00a0\u00bb et GPT-3.5, la premi\u00e8re g\u00e9n\u00e9ration \u00e0 \u00eatre commercialis\u00e9e sous le nom \u00ab\u00a0ChatGPT\u00a0\u00bb, atteint un taux de r\u00e9ussite de 97% .<\/p>\n<p class=\"p1\">Une question de grandeur donc, que l\u2019on peut \u00e9valuer aussi bien en nombre d\u2019informations linguistiques \u00e0 ingurgiter en m\u00e9moire que le syst\u00e8me pourra utiliser par la suite comme \u00e9l\u00e9ments dans une phrase, que nombre de connexions au sein de son moteur, le r\u00e9seau neuronal conteneur de m\u00e9moire \u00e0 activer par le <i>prompt<\/i>, l\u2019amorce de l\u2019utilisateur, et g\u00e9n\u00e9rateur de phrases en r\u00e9ponse \u00e0 sa question. Question de taille purement et simplement : une certaine taille est atteinte et le syst\u00e8me, jusque-l\u00e0 \u00e0 l\u2019enc\u00e9phalogramme plat, s\u2019anime.<\/p>\n<p class=\"p1\">Et si l\u2019on continuait d\u2019augmenter la taille des LLM, me direz-vous ? C\u2019est-\u00e0-dire donc en croissance conjointe de la grandeur du r\u00e9seau neuronal et du nombre des informations d\u2019apprentissage. On chuchote dans les milieux bien inform\u00e9s que cela se fait depuis un certain temps d\u00e9j\u00e0 dans des bases secr\u00e8tes et que le r\u00e9sultat observ\u00e9 est celui auquel on doit logiquement s\u2019attendre. Mais chut, le genre humain ne serait pas pr\u00eat pour la nouvelle\u00a0!<\/p>\n","protected":false},"excerpt":{"rendered":"<p class=\"p1\">Comment ce ph\u00e9nom\u00e8ne du Grand Mod\u00e8le de Langage caract\u00e9riel est-il apparu, alors que le principe probabiliste d\u2019aligner en sortie les mots \u00e0 la queue-leu-leu en fonction de la fr\u00e9quence de leur association \u00e0 la suite l\u2019un de l\u2019autre dans la langue est incapable bien entendu de d\u00e9boucher sur des encha\u00eenements de mots produisant des [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9204,13],"tags":[9084,7670,9205,8778],"class_list":["post-136948","post","type-post","status-publish","format-standard","hentry","category-grands-modeles-de-langage","category-intelligence-artificielle","tag-chatgpt","tag-gpt-3","tag-grands-modeles-de-langage","tag-lamda"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/136948","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=136948"}],"version-history":[{"count":2,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/136948\/revisions"}],"predecessor-version":[{"id":136950,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/136948\/revisions\/136950"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=136948"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=136948"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=136948"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}