{"id":142525,"date":"2024-12-15T11:50:58","date_gmt":"2024-12-15T10:50:58","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=142525"},"modified":"2024-12-15T11:50:58","modified_gmt":"2024-12-15T10:50:58","slug":"les-grands-moments-de-lia-elle-ecrase-lhumain-a-casse-briques-le-11-avril-2014","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2024\/12\/15\/les-grands-moments-de-lia-elle-ecrase-lhumain-a-casse-briques-le-11-avril-2014\/","title":{"rendered":"Les grands moments de l&rsquo;IA &#8211; <b>Elle \u00e9crase l&rsquo;humain \u00e0 Casse-briques le 11 avril 2014<\/b>"},"content":{"rendered":"<p><iframe loading=\"lazy\" title=\"YouTube video player\" src=\"https:\/\/www.youtube.com\/embed\/V1eYniJ0Rnk?si=a3ONw6e8wEk6euXI\" width=\"700\" height=\"450\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p><strong>P.J.<\/strong> : <\/p>\n<blockquote><p><em>Aux alentours de 2015, Demis Hassabis pr\u00e9sente une vid\u00e9o dans laquelle il montre l&rsquo;IA battant les humains au jeu vid\u00e9o Atari Casse-briques. Pouvez-vous nous rafra\u00eechir les id\u00e9es ?<\/em><\/p><\/blockquote>\n<p><strong>ChatGPT 4 o<\/strong> :<\/p>\n<p>Vous pensez sans doute \u00e0 la d\u00e9monstration que DeepMind a pr\u00e9sent\u00e9e vers le d\u00e9but de l\u2019ann\u00e9e 2015, \u00e0 l\u2019\u00e9poque de la publication de leurs travaux pionniers sur les \u201cdeep Q-networks\u201d (DQN). \u00c0 cette p\u00e9riode, Demis Hassabis (co-fondateur de DeepMind) montrait souvent un extrait vid\u00e9o dans lequel leur agent d\u2019IA parvenait \u00e0 ma\u00eetriser le jeu d\u2019Atari 2600, Casse-briques (<em>Breakout<\/em>). Cette vid\u00e9o, ainsi que <a href=\"https:\/\/research.google\/blog\/from-pixels-to-actions-human-level-control-through-deep-reinforcement-learning\/\" target=\"_blank\">la recherche qui l\u2019accompagnait<\/a>, avait suscit\u00e9 un vif int\u00e9r\u00eat car elle repr\u00e9sentait l\u2019un des premiers exemples publics et frappants de la capacit\u00e9 des m\u00e9thodes d\u2019apprentissage automatique \u2013 en particulier l\u2019apprentissage par renforcement associ\u00e9 \u00e0 des r\u00e9seaux neuronaux profonds \u2013 \u00e0 acqu\u00e9rir des comportements complexes \u00e0 partir d\u2019entr\u00e9es visuelles brutes, et ce, sans r\u00e8gles pr\u00e9d\u00e9finies.<\/p>\n<p><strong>Points cl\u00e9s pour rafra\u00eechir votre m\u00e9moire :<\/strong><\/p>\n<ol>\n<li><strong>Contexte de la d\u00e9monstration :<\/strong><br \/>\nEn f\u00e9vrier 2015, les travaux de DeepMind ont \u00e9t\u00e9 publi\u00e9s dans <em>Nature<\/em> sous le titre <em>\u00ab <a href=\"https:\/\/storage.googleapis.com\/deepmind-media\/dqn\/DQNNaturePaper.pdf\" target=\"_blank\" rel=\"noopener\">Human-level control through deep reinforcement learning<\/a> \u00bb<\/em>. \u00c0 cette p\u00e9riode, Hassabis et l\u2019\u00e9quipe ont r\u00e9alis\u00e9 diff\u00e9rentes pr\u00e9sentations et conf\u00e9rences, o\u00f9 ils mettaient en avant Casse-briques comme exemple phare. Les r\u00e9sultats ont \u00e9galement \u00e9t\u00e9 relay\u00e9s par de nombreux m\u00e9dias, faisant largement conna\u00eetre cette technologie.<\/li>\n<li><strong>Pourquoi avoir choisi Casse-briques ?<\/strong><br \/>\nCasse-briques est un jeu Atari simple mais instructif : le joueur contr\u00f4le une raquette pour renvoyer une balle vers des briques situ\u00e9es en haut de l\u2019\u00e9cran. Le principe visuel est facile \u00e0 saisir, ce qui en fait un excellent support pour illustrer la fa\u00e7on dont une IA peut apprendre par elle-m\u00eame. Le jeu exige \u00e9galement une certaine anticipation et de la strat\u00e9gie, notamment la d\u00e9couverte qu\u2019il est plus efficace de creuser un \u201ctunnel\u201d dans les briques afin que la balle puisse rebondir derri\u00e8re elles, d\u00e9molissant ainsi plusieurs briques d\u2019affil\u00e9e sans que la raquette n\u2019ait \u00e0 se d\u00e9placer constamment.<\/li>\n<li><strong>Ce qui rendait la d\u00e9monstration remarquable :<\/strong><br \/>\nAvant cela, la plupart des IA con\u00e7ues pour jouer aux jeux vid\u00e9o s\u2019appuyaient fortement sur des fonctionnalit\u00e9s \u00e9labor\u00e9es \u00e0 la main, des heuristiques sp\u00e9cifiques au jeu ou des syst\u00e8mes symboliques. Le syst\u00e8me de DeepMind ne s\u2019appuyait sur aucune de ces techniques. Il ne connaissait au d\u00e9part que les pixels bruts de l\u2019\u00e9cran et le score num\u00e9rique. Au fil des heures d\u2019entra\u00eenement \u2013 par essai-erreur \u2013 l\u2019agent apprenait \u00e0 jouer aussi bien, puis mieux, que la plupart des joueurs humains.<\/p>\n<p>De mani\u00e8re particuli\u00e8rement impressionnante, l\u2019IA a d\u00e9couvert d\u2019elle-m\u00eame la strat\u00e9gie optimale consistant \u00e0 creuser un couloir le long du c\u00f4t\u00e9 du mur de briques, permettant \u00e0 la balle de se glisser derri\u00e8re le mur et de d\u00e9truire de nombreuses briques sans intervention constante. Les humains d\u00e9couvrent souvent cette astuce intuitivement, mais personne ne l\u2019avait jamais explicitement enseign\u00e9e \u00e0 l\u2019agent. Cette d\u00e9couverte \u00e9mergeait uniquement de l\u2019algorithme d\u2019apprentissage par renforcement cherchant \u00e0 maximiser la r\u00e9compense (le score).<\/li>\n<li><strong>Fondements techniques :<\/strong><br \/>\nL\u2019approche utilisait un type de mod\u00e8le d\u2019apprentissage profond \u2013 plus pr\u00e9cis\u00e9ment un r\u00e9seau de neurones convolutifs \u2013 pour traiter les pixels bruts de chaque image du jeu et produire une fonction de valeur (Q-values) pour chaque action possible (d\u00e9placer la raquette \u00e0 gauche, \u00e0 droite, ou rester immobile). Ce deep Q-network apprenait au fur et \u00e0 mesure quelles actions menaient \u00e0 des scores plus \u00e9lev\u00e9s. Le processus d\u2019apprentissage \u00e9tait stabilis\u00e9 et am\u00e9lior\u00e9 gr\u00e2ce \u00e0 des techniques comme le \u201crejeu d\u2019exp\u00e9rience\u201d (experience replay), o\u00f9 l\u2019agent stockait ses exp\u00e9riences pass\u00e9es (\u00e9tats, actions, r\u00e9compenses) dans une m\u00e9moire tampon pour les r\u00e9utiliser lors de l\u2019entra\u00eenement.<\/li>\n<li><strong>Impact plus large :<\/strong><br \/>\nCette d\u00e9monstration fut l\u2019une des \u00e9tincelles ayant conduit \u00e0 l\u2019explosion de l\u2019int\u00e9r\u00eat pour l\u2019apprentissage par renforcement combin\u00e9 \u00e0 l\u2019apprentissage profond. Elle a convaincu de nombreux chercheurs et la communaut\u00e9 technologique au sens large que des m\u00e9thodes g\u00e9n\u00e9rales \u2013 sans r\u00e8gles sp\u00e9cifiques au domaine \u2013 pouvaient obtenir des performances surhumaines dans des t\u00e2ches complexes. Cela a ouvert la voie \u00e0 de futures avanc\u00e9es, telles que AlphaGo, AlphaZero, et de multiples applications allant de la robotique \u00e0 la gestion de ressources.<\/li>\n<\/ol>\n<p>En somme, la pr\u00e9sentation de Demis Hassabis autour de 2015 n\u2019a pas simplement montr\u00e9 qu\u2019une IA pouvait battre les humains \u00e0 Casse-briques ; elle a symbolis\u00e9 un bond en avant dans la mani\u00e8re dont les syst\u00e8mes d\u2019IA pouvaient apprendre des t\u00e2ches complexes directement \u00e0 partir de donn\u00e9es sensorielles brutes, inaugurant ainsi une nouvelle \u00e8re dans la recherche en apprentissage machine.<\/p>\n<p><iframe loading=\"lazy\" width=\"700\" height=\"450\" src=\"https:\/\/www.youtube.com\/embed\/EfGD2qveGdQ?si=D969wSmjCDDdYmFx\" title=\"YouTube video player\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/p>\n","protected":false},"excerpt":{"rendered":"<p><iframe loading=\"lazy\" title=\"YouTube video player\" src=\"https:\/\/www.youtube.com\/embed\/V1eYniJ0Rnk?si=a3ONw6e8wEk6euXI\" width=\"700\" height=\"450\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p><strong>P.J.<\/strong> : <\/p>\n<blockquote>\n<p><em>Aux alentours de 2015, Demis Hassabis pr\u00e9sente une vid\u00e9o dans laquelle il montre l&rsquo;IA battant les humains au jeu vid\u00e9o Atari Casse-briques. Pouvez-vous nous rafra\u00eechir les id\u00e9es ?<\/em><\/p>\n<\/blockquote>\n<p><strong>ChatGPT 4 o<\/strong> :<\/p>\n<p>Vous pensez sans doute \u00e0 la d\u00e9monstration que DeepMind a pr\u00e9sent\u00e9e [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[13],"tags":[9904,9903,4001,9174],"class_list":["post-142525","post","type-post","status-publish","format-standard","hentry","category-intelligence-artificielle","tag-atari","tag-casse-briques","tag-deepmind","tag-demis-hassabis"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142525","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=142525"}],"version-history":[{"count":2,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142525\/revisions"}],"predecessor-version":[{"id":142527,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/142525\/revisions\/142527"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=142525"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=142525"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=142525"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}