{"id":142363,"date":"2024-12-02T16:56:30","date_gmt":"2024-12-02T15:56:30","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=142363"},"modified":"2024-12-02T16:56:30","modified_gmt":"2024-12-02T15:56:30","slug":"testons-le-nouveau-grand-modele-de-langage-chinois-deepseek","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2024\/12\/02\/testons-le-nouveau-grand-modele-de-langage-chinois-deepseek\/","title":{"rendered":"<b>Testons le nouveau Grand Mod\u00e8le de Langage chinois DeepSeek<\/b>"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-142364\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37.png\" alt=\"\" width=\"1476\" height=\"594\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37.png 1476w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37-300x121.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37-1024x412.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37-768x309.png 768w\" sizes=\"auto, (max-width: 1476px) 100vw, 1476px\" \/><strong>ChatGPT 4o<\/strong>\u00a0 :<\/p>\n<p>DeepSeek a publi\u00e9 plusieurs mod\u00e8les d&rsquo;IA, chacun marquant des avanc\u00e9es significatives en mati\u00e8re d&rsquo;intelligence artificielle :<\/p>\n<p><strong>DeepSeek-V2.5<\/strong> : lanc\u00e9 le 5 septembre 2024, ce mod\u00e8le int\u00e8gre les capacit\u00e9s de DeepSeek-V2-0628 et de DeepSeek-Coder-V2-0724, am\u00e9liorant \u00e0 la fois les capacit\u00e9s g\u00e9n\u00e9rales de conversation et la puissance de traitement des codes.<\/p>\n<p><strong>DeepSeek-R1-Lite-Preview<\/strong> : Sorti le 20 novembre 2024, ce mod\u00e8le d&rsquo;IA raisonnante excelle dans les t\u00e2ches complexes, en particulier en math\u00e9matiques et en codage, \u00e9galant ou surpassant le mod\u00e8le o1-preview d&rsquo;OpenAI sur des benchmarks difficiles comme AIME et MATH.<\/p>\n<p>Ces versions refl\u00e8tent l&rsquo;engagement de DeepSeek \u00e0 faire progresser la technologie de l&rsquo;IA et \u00e0 contribuer \u00e0 la communaut\u00e9 open-source.<\/p>\n<p><strong>P.J.<\/strong> :<\/p>\n<p>Comment pouvons-nous garantir un super-alignement pour les LLM ?<\/p>\n<p><strong>DeepSeek <\/strong>:<\/p>\n<p><em>D&rsquo;accord, la question porte sur la garantie d&rsquo;un super alignement pour les Grands Mod\u00e8les de Langage, ou LLM. Je sais que l&rsquo;alignement, dans ce contexte, consiste \u00e0 s&rsquo;assurer que les actions et les r\u00e9sultats de l&rsquo;IA sont parfaitement align\u00e9s sur les valeurs et les intentions humaines. Mais que signifie exactement \u00ab\u00a0super alignement\u00a0\u00bb ? Il s&rsquo;agit peut-\u00eatre d&rsquo;atteindre un niveau d&rsquo;alignement qui va bien au-del\u00e0 des normes actuelles, en veillant \u00e0 ce que l&rsquo;IA ne soit pas seulement quelque peu align\u00e9e, mais extr\u00eamement align\u00e9e.<\/em><\/p>\n<p><em>Tout d&rsquo;abord, je devrais r\u00e9fl\u00e9chir \u00e0 ce qui cause un mauvais alignement dans les LLM. Il s&rsquo;agit probablement de choses telles que le manque de donn\u00e9es refl\u00e9tant les valeurs humaines, ou l&rsquo;apprentissage des mod\u00e8les \u00e0 partir de donn\u00e9es biais\u00e9es, ou encore les fonctions de r\u00e9compense utilis\u00e9es dans l&rsquo;apprentissage par renforcement qui ne capturent pas correctement les pr\u00e9f\u00e9rences humaines.<\/em><\/p>\n<p><em>Ainsi, pour garantir un super alignement, une approche pourrait consister \u00e0 am\u00e9liorer les donn\u00e9es d&rsquo;apprentissage. Si les donn\u00e9es utilis\u00e9es pour former ces mod\u00e8les sont soigneusement s\u00e9lectionn\u00e9es pour repr\u00e9senter un large \u00e9ventail de valeurs et d&rsquo;\u00e9thiques humaines, cela pourrait \u00eatre utile. Il est \u00e9galement possible d&rsquo;impliquer divers groupes de personnes dans le processus de collecte des donn\u00e9es afin de minimiser les pr\u00e9jug\u00e9s.<\/em><\/p>\n<p><em>Un autre \u00e9l\u00e9ment est le processus de formation lui-m\u00eame. Il est possible d&rsquo;utiliser l&rsquo;apprentissage par renforcement \u00e0 partir du retour d&rsquo;information humain, o\u00f9 les humains peuvent corriger les r\u00e9sultats du mod\u00e8le en temps r\u00e9el. De cette mani\u00e8re, le mod\u00e8le apprend directement \u00e0 partir des pr\u00e9f\u00e9rences humaines. Mais je me demande dans quelle mesure cette m\u00e9thode peut \u00eatre adapt\u00e9e \u00e0 des mod\u00e8les massifs.<\/em><\/p>\n<p><em>J&rsquo;ai \u00e9galement entendu parler de techniques d&rsquo;alignement des valeurs, o\u00f9 l&rsquo;IA est entra\u00een\u00e9e \u00e0 maximiser une fonction d&rsquo;utilit\u00e9 qui repr\u00e9sente les valeurs humaines. Mais il est difficile de d\u00e9finir correctement cette fonction d&rsquo;utilit\u00e9. Des \u00e9thiciens et des philosophes pourraient \u00eatre n\u00e9cessaires pour la d\u00e9finir correctement.<\/em><\/p>\n<p><em>Les tests et la v\u00e9rification sont probablement aussi importants. Nous avons besoin de moyens pour tester si le LLM se comporte comme pr\u00e9vu dans diff\u00e9rents sc\u00e9narios. Peut-\u00eatre en d\u00e9veloppant des ensembles complets de cas de test qui couvrent des dilemmes \u00e9thiques et en observant comment le mod\u00e8le r\u00e9agit.<\/em><\/p>\n<p><em>Des audits r\u00e9guliers et la transparence pourraient contribuer \u00e0 garantir l&rsquo;alignement. Si les processus d\u00e9cisionnels du mod\u00e8le sont transparents, il est plus facile de rep\u00e9rer les erreurs. Il est possible d&rsquo;utiliser des techniques telles que l&rsquo;IA explicable pour rendre le raisonnement du mod\u00e8le plus compr\u00e9hensible.<\/em><\/p>\n<p><em>Un apprentissage et une adaptation continus peuvent \u00e9galement s&rsquo;av\u00e9rer n\u00e9cessaires. Les valeurs humaines peuvent \u00e9voluer, l&rsquo;IA doit donc \u00eatre capable de s&rsquo;adapter \u00e0 ces changements au fil du temps. Il faudrait peut-\u00eatre int\u00e9grer des m\u00e9canismes permettant au mod\u00e8le d&rsquo;apprendre en permanence \u00e0 partir de nouvelles interactions et du retour d&rsquo;information.<\/em><\/p>\n<p><em>Je devrais \u00e9galement prendre en compte le r\u00f4le de la gouvernance et de la r\u00e9glementation. La mise en place de cadres dictant la mani\u00e8re dont ces mod\u00e8les doivent \u00eatre d\u00e9velopp\u00e9s et d\u00e9ploy\u00e9s permet de faire respecter les normes d&rsquo;alignement.\u56fd\u9645\u5408\u4f5c\u53ef\u80fd\u4e5f\u662f\u5fc5\u8981\u7684\uff0c\u56e0\u4e3aAI\u7684\u5f71\u54cd\u662f\u5168\u7403\u6027\u7684\u3002<\/em><\/p>\n<p><em>Enfin, il est peut-\u00eatre n\u00e9cessaire de mener des recherches avanc\u00e9es sur l&rsquo;alignement, en explorant de nouvelles m\u00e9thodes et th\u00e9ories pour parvenir \u00e0 ce super-alignement. Il est probablement essentiel de se tenir au courant des derni\u00e8res recherches en mati\u00e8re d&rsquo;alignement de l&rsquo;IA.<\/em><\/p>\n<p><em>Dans l&rsquo;ensemble, il semble qu&rsquo;une combinaison de meilleures donn\u00e9es, de m\u00e9thodes de formation am\u00e9lior\u00e9es, de tests approfondis, de transparence, d&rsquo;apprentissage continu, de gouvernance et de recherche permanente soit essentielle pour garantir un super alignement dans les MLD.<\/em><\/p>\n<p>Garantir un \u00ab\u00a0super alignement\u00a0\u00bb pour les grands mod\u00e8les de langage (LLM) implique de s&rsquo;assurer que les comportements et les r\u00e9sultats de ces mod\u00e8les ne sont pas simplement align\u00e9s sur les valeurs humaines, mais qu&rsquo;ils sont parfaitement et constamment align\u00e9s, minimisant ainsi le risque de cons\u00e9quences involontaires ou n\u00e9fastes. Voici une approche structur\u00e9e pour y parvenir :<\/p>\n<p>1. <strong>Donn\u00e9es de formation de haute qualit\u00e9<\/strong> :<br \/>\n&#8211; <em>Curation<\/em> : Les donn\u00e9es de formation sont soigneusement s\u00e9lectionn\u00e9es pour inclure un large \u00e9ventail de valeurs humaines, d&rsquo;\u00e9thiques et de perspectives diverses.<br \/>\n&#8211; <em>Att\u00e9nuation des pr\u00e9jug\u00e9s<\/em> : Supprimez activement les biais et les mod\u00e8les nuisibles des donn\u00e9es afin d&#8217;emp\u00eacher le mod\u00e8le d&rsquo;apprendre des associations ind\u00e9sirables.<\/p>\n<p>2. <strong>Techniques de formation avanc\u00e9es<\/strong> :<br \/>\n&#8211; <em>Apprentissage par renforcement \u00e0 partir d&rsquo;un retour d&rsquo;information humain (RLHF)<\/em> : Affiner continuellement le mod\u00e8le en utilisant le retour d&rsquo;information humain pour s&rsquo;assurer que ses r\u00e9sultats refl\u00e8tent les pr\u00e9f\u00e9rences humaines.<br \/>\n&#8211; <em>Alignement des valeurs<\/em> : Entra\u00eener le mod\u00e8le \u00e0 maximiser une fonction d&rsquo;utilit\u00e9 qui repr\u00e9sente les valeurs humaines, avec l&rsquo;aide d&rsquo;\u00e9thiciens pour d\u00e9finir correctement ces valeurs.<\/p>\n<p>3. <strong>Test et v\u00e9rification complets<\/strong> :<br \/>\n&#8211; <em>Dilemmes \u00e9thiques<\/em> : D\u00e9velopper et utiliser des suites de tests qui couvrent des sc\u00e9narios \u00e9thiques complexes afin d&rsquo;\u00e9valuer les r\u00e9ponses du mod\u00e8le.<br \/>\n&#8211; <em>Contr\u00f4les de robustesse<\/em> : Tester r\u00e9guli\u00e8rement le mod\u00e8le pour d\u00e9tecter d&rsquo;\u00e9ventuelles vuln\u00e9rabilit\u00e9s ou d\u00e9salignements, y compris des donn\u00e9es adverses.<\/p>\n<p>4. <strong>Transparence et explicabilit\u00e9<\/strong> :<br \/>\n&#8211; <em>Il est possible d&rsquo;expliquer l&rsquo;IA (XAI)<\/em> : Utiliser des techniques pour rendre les processus de d\u00e9cision du mod\u00e8le transparents, permettant aux humains de comprendre et de v\u00e9rifier son raisonnement.<br \/>\n&#8211; <em>Pistes d&rsquo;audit<\/em> : Conserver les journaux des d\u00e9cisions du mod\u00e8le et des donn\u00e9es d&rsquo;entra\u00eenement \u00e0 des fins d&rsquo;audit.<\/p>\n<p>5. <strong>Apprentissage continu et adaptation<\/strong> :<br \/>\n&#8211; <em>Apprentissage adaptatif<\/em> : Permettre au mod\u00e8le d&rsquo;apprendre et de s&rsquo;adapter \u00e0 l&rsquo;\u00e9volution des valeurs humaines et des normes soci\u00e9tales par le biais d&rsquo;une interaction et d&rsquo;un retour d&rsquo;information continus.<br \/>\n&#8211; <em>Mises \u00e0 jour r\u00e9guli\u00e8res<\/em> : R\u00e9entra\u00eener ou affiner p\u00e9riodiquement le mod\u00e8le \u00e0 l&rsquo;aide de nouvelles donn\u00e9es pour qu&rsquo;il reste align\u00e9 sur les valeurs actuelles.<\/p>\n<p>6. <strong>Gouvernance et r\u00e9glementation<\/strong> :<br \/>\n&#8211; <em>Directives \u00e9thiques<\/em> : \u00c9tablir et respecter des lignes directrices \u00e9thiques pour le d\u00e9veloppement et le d\u00e9ploiement du mod\u00e8le.<br \/>\n&#8211; <em>Cadres r\u00e9glementaires<\/em> : Suivre les r\u00e9glementations et les meilleures pratiques en mati\u00e8re de gouvernance de l&rsquo;IA afin de garantir l&rsquo;alignement sur les normes juridiques et morales.<\/p>\n<p>7. <strong>Communaut\u00e9 et collaboration<\/strong> :<br \/>\n&#8211; <em>Collaboration multidisciplinaire<\/em> : Impliquer des \u00e9thiciens, des sp\u00e9cialistes des sciences sociales et des experts en interaction homme-machine dans le processus de d\u00e9veloppement.<br \/>\n&#8211; <em>Engagement du public<\/em> : S&rsquo;engager aupr\u00e8s du public pour comprendre les valeurs soci\u00e9tales et int\u00e9grer ce retour d&rsquo;information dans le d\u00e9veloppement du mod\u00e8le.<\/p>\n<p>8. <strong>Recherche et innovation<\/strong> :<br \/>\n&#8211; <em>Recherche en cours<\/em> : Rester \u00e0 la pointe de la recherche sur l&rsquo;alignement de l&rsquo;IA, en explorant de nouvelles th\u00e9ories et m\u00e9thodes pour am\u00e9liorer l&rsquo;alignement.<br \/>\n&#8211; <em>Mesures de s\u00e9curit\u00e9<\/em> : Investir dans la recherche pour d\u00e9velopper des m\u00e9canismes de s\u00e9curit\u00e9 capables de d\u00e9tecter et de corriger les d\u00e9fauts d&rsquo;alignement en temps r\u00e9el.<\/p>\n<p>En combinant ces strat\u00e9gies, les d\u00e9veloppeurs peuvent s&rsquo;efforcer d&rsquo;atteindre un niveau \u00e9lev\u00e9 d&rsquo;alignement, ou \u00ab\u00a0super-alignement\u00a0\u00bb, o\u00f9 les LLM se comportent constamment de mani\u00e8re non seulement inoffensive, mais aussi activement b\u00e9n\u00e9fique et \u00e9thique.<\/p>\n<blockquote><p><strong>P.J.<\/strong> :<\/p>\n<p>Passe le test \ud83d\ude00 .<\/p><\/blockquote>\n<p>======<\/p>\n<p><strong>ChatGPT 4o<\/strong>\u00a0 :<\/p>\n<p>DeepSeek est une entreprise chinoise d&rsquo;intelligence artificielle fond\u00e9e en 2023, qui se consacre \u00e0 l&rsquo;avancement de l&rsquo;intelligence artificielle g\u00e9n\u00e9rale (AGI). Elle fonctionne comme un laboratoire de recherche sur l&rsquo;IA sous l&rsquo;\u00e9gide de High-Flyer Capital Management, un important fonds sp\u00e9culatif quantitatif chinois. L&rsquo;entreprise se concentre sur le d\u00e9veloppement de mod\u00e8les d&rsquo;IA performants et open-source.<\/p>\n<p>Principaux mod\u00e8les d&rsquo;IA d\u00e9velopp\u00e9s par DeepSeek :<\/p>\n<p><strong>DeepSeek-V2<\/strong> : Un mod\u00e8le linguistique de m\u00e9lange d&rsquo;experts (MoE) avec 236 milliards de param\u00e8tres au total, dont 21 milliards sont activ\u00e9s par jeton. Il prend en charge une longueur de contexte allant jusqu&rsquo;\u00e0 128 000 tokens et est con\u00e7u pour une formation \u00e9conomique et une inf\u00e9rence efficace.<\/p>\n<p><strong>DeepSeek-V2.5<\/strong> : une version am\u00e9lior\u00e9e qui combine les capacit\u00e9s g\u00e9n\u00e9rales et de codage des mod\u00e8les pr\u00e9c\u00e9dents, s&rsquo;alignant mieux sur les pr\u00e9f\u00e9rences humaines et optimis\u00e9e pour des t\u00e2ches telles que l&rsquo;\u00e9criture et le suivi d&rsquo;instructions.<\/p>\n<p><strong>DeepSeek-R1-Lite-Preview<\/strong> : Un mod\u00e8le d&rsquo;IA raisonnante qui excelle dans les t\u00e2ches complexes, en particulier en math\u00e9matiques et en codage. Il \u00e9galerait ou surpasserait le mod\u00e8le o1-preview d&rsquo;OpenAI sur des benchmarks difficiles tels que AIME et MATH.<\/p>\n<p>L&rsquo;engagement de DeepSeek en faveur du d\u00e9veloppement de logiciels libres l&rsquo;a positionn\u00e9 comme un acteur important de l&rsquo;industrie de l&rsquo;IA, contribuant \u00e0 la communaut\u00e9 mondiale de la recherche en IA. Ses mod\u00e8les sont disponibles sur des plateformes telles que Hugging Face, facilitant l&rsquo;acc\u00e8s aux chercheurs et aux d\u00e9veloppeurs du monde entier.<\/p>\n","protected":false},"excerpt":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-142364\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37.png\" alt=\"\" width=\"1476\" height=\"594\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37.png 1476w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37-300x121.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37-1024x412.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/Capture-de\u0301cran-2024-12-02-a\u0300-16.45.37-768x309.png 768w\" sizes=\"auto, (max-width: 1476px) 100vw, 1476px\" \/><strong>ChatGPT 4o<\/strong>\u00a0 :<\/p>\n<p>DeepSeek a publi\u00e9 plusieurs mod\u00e8les d&rsquo;IA, chacun marquant des avanc\u00e9es significatives en mati\u00e8re d&rsquo;intelligence artificielle :<\/p>\n<p><strong>DeepSeek-V2.5<\/strong> : lanc\u00e9 le 5 septembre 2024, ce mod\u00e8le int\u00e8gre les capacit\u00e9s de DeepSeek-V2-0628 et de DeepSeek-Coder-V2-0724, am\u00e9liorant \u00e0 la fois les capacit\u00e9s g\u00e9n\u00e9rales de conversation et la [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4489,9204,13],"tags":[40,9880,9254,940,9253,9808],"class_list":["post-142363","post","type-post","status-publish","format-standard","hentry","category-chine","category-grands-modeles-de-langage","category-intelligence-artificielle","tag-chine","tag-deepseek","tag-grand-modele-de-langage","tag-intelligence-artificielle-2","tag-llm","tag-super-alignement"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142363","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=142363"}],"version-history":[{"count":1,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142363\/revisions"}],"predecessor-version":[{"id":142365,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142363\/revisions\/142365"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=142363"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=142363"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=142363"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}