{"id":138996,"date":"2024-02-25T16:40:21","date_gmt":"2024-02-25T15:40:21","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=138996"},"modified":"2024-02-25T18:12:29","modified_gmt":"2024-02-25T17:12:29","slug":"eureka-dispositif-de-gratification-de-niveau-humain-par-le-biais-du-codage-de-grands-modeles-de-langage-gpt-4","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2024\/02\/25\/eureka-dispositif-de-gratification-de-niveau-humain-par-le-biais-du-codage-de-grands-modeles-de-langage-gpt-4\/","title":{"rendered":"<b>\u00ab\u00a0Eureka : Dispositif de gratification de niveau humain par le biais du codage de grands mod\u00e8les de langage [GPT-4]\u00a0\u00bb<\/b>"},"content":{"rendered":"<div style=\"width: 2560px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-138996-1\" width=\"2560\" height=\"1440\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/eureka_zoomout.mp4?_=1\" \/><a href=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/eureka_zoomout.mp4\">https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/eureka_zoomout.mp4<\/a><\/video><\/div>\n<p><a href=\"https:\/\/eureka-research.github.io\/\" rel=\"noopener\" target=\"_blank\"><strong>Eureka: Human-Level Reward Design via Coding Large Language Models<\/strong><\/a>, le 19 octobre 2023<\/p>\n<blockquote><p><strong>Vue d&rsquo;ensemble<\/strong>. Eureka part du code source de l&rsquo;environnement non modifi\u00e9 et la description linguistique de la t\u00e2che comme contexte pour g\u00e9n\u00e9rer des fonctions de gratification ex\u00e9cutables \u00e0 partir d&rsquo;un LLM de codage [typiquement GPT-4]. Ensuite, il alterne entre la recherche \u00e9volutive de gratifications, l&rsquo;\u00e9valuation de gratifications acc\u00e9l\u00e9r\u00e9e par le GPU [la \u00ab\u00a0carte graphique\u00a0\u00bb] et la r\u00e9\u00e9valuation des gratifications afin d&rsquo;am\u00e9liorer progressivement ses r\u00e9sultats en mati\u00e8re de gratifications.<\/p><\/blockquote>\n<p><strong>Apprentissage de la marche :<\/strong><\/p>\n<p><em>Point de d\u00e9part<\/em><\/p>\n<div style=\"width: 1920px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-138996-2\" width=\"1920\" height=\"1080\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-norlhf.mp4?_=2\" \/><a href=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-norlhf.mp4\">https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-norlhf.mp4<\/a><\/video><\/div>\n<p><em>\u00c9tape 1<\/em><\/p>\n<div style=\"width: 1920px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-138996-3\" width=\"1920\" height=\"1080\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step0.mp4?_=3\" \/><a href=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step0.mp4\">https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step0.mp4<\/a><\/video><\/div>\n<p><em>\u00c9tape 2<\/em><\/p>\n<div style=\"width: 1920px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-138996-4\" width=\"1920\" height=\"1080\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step1.mp4?_=4\" \/><a href=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step1.mp4\">https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step1.mp4<\/a><\/video><\/div>\n<p><em>\u00c9tape 3<\/em><\/p>\n<div style=\"width: 1920px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-138996-5\" width=\"1920\" height=\"1080\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step2.mp4?_=5\" \/><a href=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step2.mp4\">https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step2.mp4<\/a><\/video><\/div>\n<p><em>\u00c9tape 4<\/em><\/p>\n<div style=\"width: 1920px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-138996-6\" width=\"1920\" height=\"1080\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step3.mp4?_=6\" \/><a href=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step3.mp4\">https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step3.mp4<\/a><\/video><\/div>\n<p><em>Aboutissement<\/em><\/p>\n<div style=\"width: 1920px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-138996-7\" width=\"1920\" height=\"1080\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step4.mp4?_=7\" \/><a href=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step4.mp4\">https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/humanoid-step4.mp4<\/a><\/video><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Eureka: Human-Level Reward Design via Coding Large Language Models, le 19 octobre 2023 Vue d&rsquo;ensemble. Eureka part du code source de l&rsquo;environnement non modifi\u00e9 et la description linguistique de la t\u00e2che comme contexte pour g\u00e9n\u00e9rer des fonctions de gratification ex\u00e9cutables \u00e0 partir d&rsquo;un LLM de codage [typiquement GPT-4]. Ensuite, il alterne entre la recherche \u00e9volutive [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[13,9493,9489,5197],"tags":[6558,9495,940,9494,8885],"class_list":["post-138996","post","type-post","status-publish","format-standard","hentry","category-intelligence-artificielle","category-optimisation","category-programmation","category-robotique","tag-apprentissage","tag-fonction-de-gratification","tag-intelligence-artificielle-2","tag-nvidia","tag-robotique"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/138996","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=138996"}],"version-history":[{"count":8,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/138996\/revisions"}],"predecessor-version":[{"id":139012,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/138996\/revisions\/139012"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=138996"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=138996"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=138996"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}