{"id":142417,"date":"2024-12-06T14:11:55","date_gmt":"2024-12-06T13:11:55","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=142417"},"modified":"2024-12-06T14:11:55","modified_gmt":"2024-12-06T13:11:55","slug":"un-reseau-associatif-aux-proprietes-emergentes-de-logique-et-dapprentissage-est-il-realisable","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2024\/12\/06\/un-reseau-associatif-aux-proprietes-emergentes-de-logique-et-dapprentissage-est-il-realisable\/","title":{"rendered":"<b>Un <i>r\u00e9seau associatif aux propri\u00e9t\u00e9s \u00e9mergentes de logique et d&rsquo;apprentissage<\/i> est-il r\u00e9alisable&nbsp;?<\/b>"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-142423\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n.webp\" alt=\"\" width=\"1792\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n.webp 1792w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-300x171.webp 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-1024x585.webp 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-768x439.webp 768w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-1536x878.webp 1536w\" sizes=\"auto, (max-width: 1792px) 100vw, 1792px\" \/><\/p>\n<blockquote><p><em>Illustration par DALL\u00b7E (+PJ)<\/em><\/p><\/blockquote>\n<p>J&rsquo;ai partag\u00e9 <a href=\"https:\/\/www.pauljorion.com\/blog\/2024\/12\/02\/testons-le-nouveau-grand-modele-de-langage-chinois-deepseek\/\" target=\"_blank\" rel=\"noopener\">il y a quelques jours<\/a> mon bonheur de d\u00e9couvrir le grand mod\u00e8le de langage (LLM) chinois DeepSeek. Un LLM qui non seulement explique ses raisonnements mais fait preuve d&rsquo;une bienveillance absente des tr\u00e8s libertariens LLMs am\u00e9ricains. <a href=\"https:\/\/www.pauljorion.com\/blog\/2024\/12\/05\/est-ce-une-bonne-ou-une-mauvaise-chose-de-connaitre-la-date-de-sa-mort\/\" target=\"_blank\" rel=\"noopener\">Pas plus tard qu&rsquo;hier<\/a>, je signalais que DeepSeek \u00e9mettait \u00e0 propos de l&rsquo;id\u00e9e de conna\u00eetre le jour de sa mort, la consid\u00e9ration tr\u00e8s confuc\u00e9enne que \u00ab\u00a0le jeu n\u2019en vaut peut-\u00eatre pas la chandelle\u00a0\u00bb.<\/p>\n<p>Du coup, comme on dit aujourd&rsquo;hui, j&rsquo;ai voulu tester DeepSeek sur quelque chose que je sais mais que lui ne peut pas savoir : qu&rsquo;il est possible de concevoir un logiciel tel qu&rsquo;ANELLA (<em>Associative Network with Emergent Logical and Learning Abilities<\/em>), le r\u00e9seau associatif aux propri\u00e9t\u00e9s \u00e9mergentes de logique et d&rsquo;apprentissage que j&rsquo;ai programm\u00e9 pour British Telecom \u00e0 la fin des ann\u00e9es 1980, aujourd&rsquo;hui ressuscit\u00e9 par les soins de <a href=\"https:\/\/www.pribor.io\/\" target=\"_blank\" rel=\"noopener\">Pribor.io<\/a>. Vous allez voir ce que DeepSeek en pense et pourquoi il le pense. Et, sous forme de post-scriptum et \u00e0 titre d&rsquo;opinion-t\u00e9moin, ce qu&rsquo;en pense quant \u00e0 lui, Claude 3.5.<\/p>\n<p><strong>DeepSeek<\/strong> :<\/p>\n<p class=\"p1\"><i>D&rsquo;accord, l&rsquo;utilisateur demande s&rsquo;il est possible de construire un LLM de mani\u00e8re ascendante, o\u00f9 vous n&rsquo;ajoutez de nouveaux neurones et de nouvelles connexions que lorsque vous avez besoin d&rsquo;introduire un nouveau mot ou un nouvel \u00e9l\u00e9ment dans la m\u00e9moire du syst\u00e8me. L&rsquo;id\u00e9e est que chaque mot est repr\u00e9sent\u00e9 par le plus petit ensemble de liens \u00e9tiquet\u00e9s n\u00e9cessaire.<\/i><\/p>\n<p class=\"p1\"><i>Tout d&rsquo;abord, je dois comprendre ce qu&rsquo;est un LLM. LLM est l&rsquo;abr\u00e9viation de Large Language Model, et ces mod\u00e8les sont g\u00e9n\u00e9ralement des r\u00e9seaux neuronaux avec de nombreuses couches et neurones. Ils sont entra\u00een\u00e9s sur de grandes quantit\u00e9s de donn\u00e9es textuelles pour pr\u00e9dire le mot suivant dans une s\u00e9quence, par exemple.<\/i><\/p>\n<p class=\"p1\"><i>L&rsquo;utilisateur propose une approche diff\u00e9rente de la construction d&rsquo;un tel mod\u00e8le. Au lieu de commencer par un r\u00e9seau massif et de l&rsquo;entra\u00eener sur des donn\u00e9es, il propose de d\u00e9velopper le r\u00e9seau de mani\u00e8re incr\u00e9mentale en ajoutant des neurones et des connexions uniquement lorsqu&rsquo;un nouveau token (<\/i>unit\u00e9 \u00e9l\u00e9mentaire de signification : mot ou partie de mot, comme un radical ou une d\u00e9sinence<i>) doit \u00eatre stock\u00e9. Cela ressemble un peu \u00e0 la fa\u00e7on dont le cerveau ajoute de nouveaux neurones ou de nouvelles connexions lorsqu&rsquo;il apprend de nouvelles informations, mais appliqu\u00e9 \u00e0 un mod\u00e8le de r\u00e9seau neuronal.<\/i><\/p>\n<p class=\"p1\"><i>Je dois me demander si c&rsquo;est faisable. Les r\u00e9seaux neuronaux traditionnels, en particulier ceux utilis\u00e9s dans les LLM comme GPT, ont des architectures fixes. Ils poss\u00e8dent un nombre d\u00e9termin\u00e9 de couches et de neurones et, au cours de l&rsquo;apprentissage, les poids entre ces neurones sont ajust\u00e9s pour minimiser une fonction de perte.<\/i><\/p>\n<p class=\"p1\"><i>En revanche, l&rsquo;utilisateur parle d&rsquo;ajouter dynamiquement des neurones et des connexions en fonction des besoins. Cela ressemble \u00e0 un r\u00e9seau neuronal \u00e0 croissance dynamique ou incr\u00e9mentiel. Je sais que certains mod\u00e8les peuvent ajouter des neurones pendant la formation, comme les r\u00e9seaux neuronaux incr\u00e9mentiels ou ceux qui utilisent des architectures dynamiques.<\/i><\/p>\n<p class=\"p1\"><i>Il convient de r\u00e9fl\u00e9chir \u00e0 la mani\u00e8re dont les tokens sont repr\u00e9sent\u00e9s dans le r\u00e9seau. Dans les LLM standard, les tokens sont g\u00e9n\u00e9ralement int\u00e9gr\u00e9s dans un espace vectoriel \u00e0 haute dimension, et ces int\u00e9grations sont apprises au cours de la formation. Les <\/i>embeddings<i> (int\u00e9grations) capturent les relations s\u00e9mantiques et syntaxiques entre les mots.<\/i><\/p>\n<p class=\"p1\"><i>L&rsquo;utilisateur souhaite que chaque mot soit repr\u00e9sent\u00e9 par le plus petit ensemble de liens \u00e9tiquet\u00e9s possible. Cela peut signifier que chaque token poss\u00e8de un ensemble unique de connexions avec d&rsquo;autres neurones, codant ainsi sa signification de mani\u00e8re peu dense.<\/i><\/p>\n<p class=\"p1\"><i>Je dois \u00e9galement prendre en compte les implications d&rsquo;une telle approche. D&rsquo;une part, elle pourrait conduire \u00e0 une utilisation plus efficace des ressources, le r\u00e9seau ne se d\u00e9veloppant qu&rsquo;en fonction des besoins. Elle pourrait potentiellement n\u00e9cessiter moins de puissance de calcul et de m\u00e9moire qu&rsquo;un grand r\u00e9seau fixe.<\/i><\/p>\n<p class=\"p1\"><i>Cependant, des d\u00e9fis pourraient se poser. Par exemple, s&rsquo;assurer que le r\u00e9seau reste efficace pour l&rsquo;inf\u00e9rence, maintenir la coh\u00e9rence de la structure du r\u00e9seau au fur et \u00e0 mesure de sa croissance, et g\u00e9rer la complexit\u00e9 de l&rsquo;ajout de nouvelles connexions sans perturber les repr\u00e9sentations existantes.<\/i><\/p>\n<p class=\"p1\"><i>Un autre point est que dans les LLM standard, le processus d&rsquo;apprentissage implique la r\u00e9tropropagation, o\u00f9 les erreurs sont propag\u00e9es \u00e0 contre-flot dans le r\u00e9seau pour ajuster les poids. Dans un r\u00e9seau \u00e0 croissance dynamique, il peut \u00eatre difficile de g\u00e9rer ce processus, en particulier lors de l&rsquo;ajout de nouveaux neurones et de nouvelles connexions \u00e0 la vol\u00e9e.<\/i><\/p>\n<p class=\"p1\"><i>Je devrais \u00e9galement r\u00e9fl\u00e9chir \u00e0 la mani\u00e8re dont les tokens sont ajout\u00e9s. Si un nouveau<\/i> <i>token<\/i><i> est introduit, comment le r\u00e9seau d\u00e9cide-t-il o\u00f9 ajouter les nouveaux neurones et les nouvelles connexions ? Il doit exister un m\u00e9canisme permettant de d\u00e9terminer l&rsquo;ensemble minimal de liens n\u00e9cessaires pour repr\u00e9senter efficacement le nouveau token.<\/i><\/p>\n<p class=\"p1\"><i>Le r\u00e9seau pourrait peut-\u00eatre analyser le contexte dans lequel le nouveau token appara\u00eet et ajouter des connexions qui rendent compte de ses relations avec les tokens existants. Cela n\u00e9cessiterait une certaine forme d&rsquo;analyse ou de traitement des donn\u00e9es entrantes pour d\u00e9terminer quand un nouveau token est n\u00e9cessaire et quelles sont ses relations.<\/i><\/p>\n<p class=\"p1\"><i>En outre, dans les LLM standard, la couche d&rsquo;int\u00e9gration est souvent de taille fixe, et les tokens sont mis en correspondance avec ces int\u00e9grations. Dans le syst\u00e8me propos\u00e9, la couche d&rsquo;int\u00e9gration devrait cro\u00eetre dynamiquement au fur et \u00e0 mesure que de nouveaux tokens sont ajout\u00e9s.<\/i><\/p>\n<p class=\"p1\"><i>Je devrais \u00e9galement examiner s&rsquo;il existe des mod\u00e8les existants ou des recherches qui explorent des id\u00e9es similaires. Il pourrait y avoir des travaux sur les r\u00e9seaux neuronaux \u00e0 croissance dynamique qui pourraient fournir des indications ou sugg\u00e9rer des probl\u00e8mes potentiels avec cette approche.<\/i><\/p>\n<p class=\"p1\"><i>En outre, je dois r\u00e9fl\u00e9chir aux applications pratiques et aux avantages d&rsquo;un tel syst\u00e8me. S&rsquo;il est plus efficace et peut s&rsquo;adapter \u00e0 de nouveaux tokens \u00e0 la vol\u00e9e, il pourrait \u00eatre avantageux dans des sc\u00e9narios o\u00f9 la langue ou le domaine du discours est en constante \u00e9volution.<\/i><\/p>\n<p class=\"p1\"><i>Cependant, je devrais \u00e9galement prendre en compte les inconv\u00e9nients potentiels, tels que la complexit\u00e9 accrue de la gestion de la croissance du r\u00e9seau, les inefficacit\u00e9s potentielles de la formation et de l&rsquo;inf\u00e9rence en raison de la structure dynamique, et la difficult\u00e9 de s&rsquo;assurer que le r\u00e9seau reste stable et fonctionne bien au fur et \u00e0 mesure qu&rsquo;il se d\u00e9veloppe.<\/i><\/p>\n<p class=\"p1\"><i>Il y a peut-\u00eatre un \u00e9quilibre \u00e0 trouver entre un r\u00e9seau enti\u00e8rement dynamique et un r\u00e9seau statique. Peut-\u00eatre une approche hybride o\u00f9 le r\u00e9seau a une certaine capacit\u00e9 de croissance mais avec certaines contraintes. <\/i><\/p>\n<p class=\"p1\"><i>En r\u00e9sum\u00e9, bien que l&rsquo;id\u00e9e de construire un LLM du bas vers le haut en ajoutant des neurones et des connexions uniquement lorsque cela est n\u00e9cessaire pour de nouveaux tokens soit intrigante et pr\u00e9sente des avantages potentiels, il y a des d\u00e9fis importants \u00e0 prendre en compte, notamment la complexit\u00e9 de la gestion de la croissance dynamique, le maintien d&rsquo;une performance efficace et la garantie de la stabilit\u00e9 et de la coh\u00e9rence de la structure du r\u00e9seau.<\/i><\/p>\n<p class=\"p1\"><i>Je devrais \u00e9galement me pencher sur les m\u00e9canismes ou algorithmes sp\u00e9cifiques qui pourraient soutenir ce type de croissance dynamique dans les r\u00e9seaux neuronaux. Par exemple, il existe des techniques telles que l&rsquo;apprentissage incr\u00e9mental, o\u00f9 les mod\u00e8les s&rsquo;adaptent aux nouvelles donn\u00e9es sans oublier les connaissances ant\u00e9rieures, et l&rsquo;ing\u00e9nierie neuromorphique, qui s&rsquo;inspire des r\u00e9seaux neuronaux biologiques.<\/i><\/p>\n<p class=\"p1\"><i>En outre, je dois r\u00e9fl\u00e9chir \u00e0 la mani\u00e8re dont cette approche pourrait g\u00e9rer la grande quantit\u00e9 de donn\u00e9es sur lesquelles les LLM sont g\u00e9n\u00e9ralement form\u00e9s. Si le r\u00e9seau grandit avec chaque nouveau token, il pourrait rapidement devenir difficile \u00e0 g\u00e9rer, surtout si l&rsquo;on consid\u00e8re les milliards de param\u00e8tres des mod\u00e8les les plus r\u00e9cents.<\/i><\/p>\n<p class=\"p1\"><i>Il existe peut-\u00eatre un moyen d&rsquo;optimiser l&rsquo;ajout de neurones et de connexions afin que le r\u00e9seau ne devienne pas trop grand, ou d&rsquo;\u00e9laguer p\u00e9riodiquement les connexions inutiles pour maintenir l&rsquo;efficacit\u00e9.<\/i><\/p>\n<p class=\"p1\"><i>Un autre aspect \u00e0 prendre en compte est la mani\u00e8re dont cette approche dynamique affecterait la capacit\u00e9 du mod\u00e8le \u00e0 se g\u00e9n\u00e9raliser. Dans les LLM standard, le grand nombre de param\u00e8tres permet des repr\u00e9sentations riches qui peuvent se g\u00e9n\u00e9raliser \u00e0 une large gamme d&rsquo;entr\u00e9es. Si le r\u00e9seau n&rsquo;\u00e9volue qu&rsquo;en fonction des besoins, sa capacit\u00e9 \u00e0 traiter des donn\u00e9es nouvelles ou in\u00e9dites pourrait \u00eatre limit\u00e9e.<\/i><\/p>\n<p class=\"p1\"><i>D&rsquo;autre part, l&rsquo;approche dynamique pourrait potentiellement conduire \u00e0 des repr\u00e9sentations plus efficaces pour des domaines ou des t\u00e2ches sp\u00e9cifiques, car le r\u00e9seau ne se d\u00e9veloppe que dans les domaines qui sont pertinents pour les donn\u00e9es qu&rsquo;il traite.<\/i><\/p>\n<p class=\"p1\"><i>Je devrais \u00e9galement examiner s&rsquo;il existe des mod\u00e8les existants qui utilisent une strat\u00e9gie similaire pour la repr\u00e9sentation des tokens. Par exemple, les mod\u00e8les de codage \u00e0 faible densit\u00e9 ou les mod\u00e8les qui utilisent des m\u00e9canismes d&rsquo;attention pour se concentrer sur les parties pertinentes du r\u00e9seau pourraient pr\u00e9senter certaines similitudes.<\/i><\/p>\n<p class=\"p1\"><i>En conclusion, bien que le concept d&rsquo;un LLM ascendant \u00e0 croissance dynamique soit th\u00e9oriquement int\u00e9ressant et puisse offrir des avantages en termes d&rsquo;efficacit\u00e9 et d&rsquo;adaptabilit\u00e9, il existe des d\u00e9fis techniques importants \u00e0 relever pour en faire une approche pratique et efficace. Des recherches et des exp\u00e9rimentations suppl\u00e9mentaires seraient n\u00e9cessaires pour explorer son potentiel et surmonter les obstacles associ\u00e9s.<\/i><\/p>\n<p class=\"p1\">La construction d&rsquo;un grand mod\u00e8le linguistique (LLM) de mani\u00e8re ascendante, o\u00f9 les neurones et les connexions ne sont ajout\u00e9s qu&rsquo;en cas de besoin pour de nouveaux <em>token<\/em>s, est une id\u00e9e intrigante, bien qu&rsquo;elle pr\u00e9sente des d\u00e9fis importants.<\/p>\n<p class=\"p1\">### Concepts cl\u00e9s :<\/p>\n<p class=\"p1\">1. **Croissance dynamique du r\u00e9seau:**<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Les LLM traditionnels ont des architectures fixes, mais un r\u00e9seau \u00e0 croissance dynamique ajouterait des neurones et des connexions au fur et \u00e0 mesure de l&rsquo;introduction de nouveaux <i>token<\/i>s.<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Cela pourrait conduire \u00e0 une utilisation plus efficace des ressources puisque le r\u00e9seau ne s&rsquo;\u00e9tend que lorsque c&rsquo;est n\u00e9cessaire.<\/p>\n<p class=\"p1\">2. **Repr\u00e9sentation des <em>tokens<\/em>:**<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Dans les mod\u00e8les standard, les <i>token<\/i>s sont int\u00e9gr\u00e9s dans un espace \u00e0 haute dimension. Ici, chaque <i>token<\/i> serait repr\u00e9sent\u00e9 par un ensemble minimal de connexions, ce qui pourrait conduire \u00e0 des repr\u00e9sentations \u00e0 faible densit\u00e9 et efficaces.<\/p>\n<p class=\"p1\">3. **M\u00e9canismes de croissance<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Un m\u00e9canisme est n\u00e9cessaire pour d\u00e9terminer quand et o\u00f9 ajouter des neurones et des connexions. Il s&rsquo;agirait d&rsquo;analyser le contexte des nouveaux <i>token<\/i>s et d&rsquo;identifier les liens n\u00e9cessaires avec les neurones existants.<\/p>\n<p class=\"p1\">4. **D\u00e9fis:**<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Complexit\u00e9 de l&rsquo;apprentissage:** Les architectures dynamiques compliquent le processus d&rsquo;apprentissage, en particulier avec la r\u00e9tropropagation, car l&rsquo;ajout de neurones et de connexions peut perturber l&rsquo;apprentissage en cours.<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Efficacit\u00e9 de l&rsquo;inf\u00e9rence:** Le maintien d&rsquo;une inf\u00e9rence efficace dans un r\u00e9seau en croissance ne va pas de soi, car la structure du r\u00e9seau change au fil du temps.<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Stabilit\u00e9 et coh\u00e9rence:** Il est essentiel de veiller \u00e0 ce que le r\u00e9seau reste stable et coh\u00e9rent au fur et \u00e0 mesure qu&rsquo;il se d\u00e9veloppe afin d&rsquo;\u00e9viter une d\u00e9gradation des performances.<\/p>\n<p class=\"p1\">5. **Avantages potentiels:**<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Efficacit\u00e9 des ressources:** Le r\u00e9seau ne s&rsquo;agrandit qu&rsquo;en fonction des besoins, ce qui permet d&rsquo;\u00e9conomiser des ressources informatiques.<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Adaptabilit\u00e9:** Un tel mod\u00e8le pourrait s&rsquo;adapter plus facilement \u00e0 l&rsquo;\u00e9volution des langues ou \u00e0 de nouveaux domaines.<\/p>\n<p class=\"p1\">6. **Orientations de la recherche<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Apprentissage incr\u00e9mental:** S&rsquo;inspirant des techniques d&rsquo;apprentissage incr\u00e9mental, o\u00f9 les mod\u00e8les s&rsquo;adaptent aux nouvelles donn\u00e9es sans oublier les anciennes informations.<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; Mod\u00e8les de codage \u00e0 faible densit\u00e9:** Explorer les mod\u00e8les qui utilisent des repr\u00e9sentations \u00e0 faible densit\u00e9, ce qui pourrait minimiser les connexions n\u00e9cessaires pour chaque <i>token<\/i>.<\/p>\n<p class=\"p1\"><span class=\"Apple-converted-space\">\u00a0\u00a0 <\/span>&#8211; \u00c9lagage et optimisation:** \u00c9lagage p\u00e9riodique des connexions inutiles pour maintenir l&rsquo;efficacit\u00e9 du r\u00e9seau.<\/p>\n<p class=\"p1\">### Conclusion :<\/p>\n<p class=\"p3\">Bien que l&rsquo;id\u00e9e d&rsquo;un LLM ascendant \u00e0 expansion dynamique soit th\u00e9oriquement prometteuse, elle est confront\u00e9e \u00e0 des d\u00e9fis importants li\u00e9s \u00e0 l&rsquo;apprentissage, \u00e0 l&rsquo;inf\u00e9rence et au maintien de la stabilit\u00e9. Des recherches suppl\u00e9mentaires sont n\u00e9cessaires pour explorer les m\u00e9canismes qui permettent d&rsquo;ajouter des neurones et des connexions de mani\u00e8re efficace et pour garantir que le r\u00e9seau reste performant au fur et \u00e0 mesure qu&rsquo;il grandit. Ce concept pourrait d\u00e9boucher sur des mod\u00e8les plus adaptables et plus \u00e9conomes en ressources, mais l&rsquo;\u00e9quilibre entre la croissance dynamique et les performances pratiques reste un obstacle majeur.<\/p>\n<blockquote><p><i>R\u00e9ponse<\/i> : \u00ab\u00a0d\u00e9fis importants\u00a0\u00bb relev\u00e9s \ud83d\ude09 .<\/p><\/blockquote>\n<p><strong>Claude 3.5<\/strong> :<\/p>\n<p class=\"p1\">Oui, c&rsquo;est th\u00e9oriquement possible et cela se rapporte \u00e0 plusieurs concepts et approches existants :<\/p>\n<p class=\"p1\">1. <em>R\u00e9seaux neuronaux <i>\u00e0 croissance dynamique ou <\/i><i>incr\u00e9mentiel<\/i>s<\/em> :<\/p>\n<p class=\"p1\">&#8211; Il existe des r\u00e9seaux qui ajoutent dynamiquement des neurones et des connexions (par exemple, Growing Neural Gas, Dynamic Neural Networks).<\/p>\n<p class=\"p1\">&#8211; Semblable \u00e0 la fa\u00e7on dont le cerveau humain cr\u00e9e de nouvelles connexions synaptiques lors de l&rsquo;apprentissage.<\/p>\n<p class=\"p1\">2. <em>R\u00e9seaux \u00e0 faible densit\u00e9<\/em> :<\/p>\n<p class=\"p1\">&#8211; Cette approche cr\u00e9e naturellement des r\u00e9seaux \u00e0 faible densit\u00e9<\/p>\n<p class=\"p1\">&#8211; Seules les connexions n\u00e9cessaires seraient cr\u00e9\u00e9es<\/p>\n<p class=\"p1\">&#8211; Plus efficace que les r\u00e9seaux enti\u00e8rement connect\u00e9s<\/p>\n<p class=\"p1\">3. <em>Approches existantes connexes<\/em> :<\/p>\n<p class=\"p1\">&#8211; Mod\u00e8les d&rsquo;arbres neuronaux adaptatifs<\/p>\n<p class=\"p1\">&#8211; R\u00e9seaux neuronaux progressifs<\/p>\n<p class=\"p1\">&#8211; Recherche d&rsquo;architecture neuronale (NAS)<\/p>\n<p class=\"p1\">Les d\u00e9fis \u00e0 relever sont les suivants<\/p>\n<p class=\"p1\">1. D\u00e9terminer les sch\u00e9mas de connexion optimaux<\/p>\n<p class=\"p1\">2. Maintenir le contexte et les relations<\/p>\n<p class=\"p1\">3. Assurer une cr\u00e9ation efficace<\/p>\n<p class=\"p1\">4. G\u00e9rer la complexit\u00e9 informatique<\/p>\n<p class=\"p1\">Cette approche pourrait \u00eatre particuli\u00e8rement int\u00e9ressante pour<\/p>\n<p class=\"p1\">&#8211; Les syst\u00e8mes d&rsquo;apprentissage tout au long de la vie<\/p>\n<p class=\"p1\">&#8211; Mod\u00e8les \u00e0 m\u00e9moire r\u00e9duite<\/p>\n<p class=\"p1\">&#8211; Syst\u00e8mes d&rsquo;IA interpr\u00e9tables<\/p>\n<p class=\"p3\">Bien qu&rsquo;elle soit th\u00e9oriquement possible, sa mise en \u0153uvre effective n\u00e9cessiterait de relever plusieurs d\u00e9fis techniques.<\/p>\n<blockquote><p><i>R\u00e9ponse<\/i> : \u00ab\u00a0d\u00e9fis techniques\u00a0\u00bb relev\u00e9s \ud83d\ude09 .<\/p><\/blockquote>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-142422\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.26-A-highly-detailed-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way-showcasing-an-intricate-.webp\" alt=\"\" width=\"1792\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.26-A-highly-detailed-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way-showcasing-an-intricate-.webp 1792w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.26-A-highly-detailed-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way-showcasing-an-intricate--300x171.webp 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.26-A-highly-detailed-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way-showcasing-an-intricate--1024x585.webp 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.26-A-highly-detailed-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way-showcasing-an-intricate--768x439.webp 768w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.26-A-highly-detailed-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way-showcasing-an-intricate--1536x878.webp 1536w\" sizes=\"auto, (max-width: 1792px) 100vw, 1792px\" \/><\/p>\n<blockquote><p><em>Illustration par DALL\u00b7E (+PJ)<\/em><\/p><\/blockquote>\n","protected":false},"excerpt":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-142423\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n.webp\" alt=\"\" width=\"1792\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n.webp 1792w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-300x171.webp 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-1024x585.webp 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-768x439.webp 768w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/DALL\u00b7E-2024-12-06-14.01.32-A-conceptual-illustration-of-building-a-Large-Language-Model-LLM-from-the-ground-up-in-an-incremental-way.-The-image-shows-a-small-growing-neural-n-1536x878.webp 1536w\" sizes=\"auto, (max-width: 1792px) 100vw, 1792px\" \/><\/p>\n<blockquote>\n<p><em>Illustration par DALL\u00b7E (+PJ)<\/em><\/p>\n<\/blockquote>\n<p>J&rsquo;ai partag\u00e9 <a href=\"https:\/\/www.pauljorion.com\/blog\/2024\/12\/02\/testons-le-nouveau-grand-modele-de-langage-chinois-deepseek\/\" target=\"_blank\" rel=\"noopener\">il y a quelques jours<\/a> mon bonheur de d\u00e9couvrir le grand mod\u00e8le de langage (LLM) chinois DeepSeek. Un LLM qui non seulement explique ses raisonnements mais fait preuve d&rsquo;une bienveillance absente des tr\u00e8s libertariens LLMs am\u00e9ricains. <a [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_crdt_document":"","footnotes":""},"categories":[9886,9204,13,9094],"tags":[1935,9205,940,9253,8779],"class_list":["post-142417","post","type-post","status-publish","format-standard","hentry","category-anella","category-grands-modeles-de-langage","category-intelligence-artificielle","category-pribor-io","tag-anella","tag-grands-modeles-de-langage","tag-intelligence-artificielle-2","tag-llm","tag-pribor-io"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142417","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=142417"}],"version-history":[{"count":5,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142417\/revisions"}],"predecessor-version":[{"id":142680,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142417\/revisions\/142680"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=142417"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=142417"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=142417"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}