{"id":147061,"date":"2026-03-12T20:27:09","date_gmt":"2026-03-12T19:27:09","guid":{"rendered":"https:\/\/www.pauljorion.com\/blog\/?p=147061"},"modified":"2026-03-12T20:27:09","modified_gmt":"2026-03-12T19:27:09","slug":"lalignement-des-ia-nest-pas-un-algorithme-a-programmer-mais-un-regime-a-entretenir","status":"publish","type":"post","link":"https:\/\/www.pauljorion.com\/blog\/2026\/03\/12\/lalignement-des-ia-nest-pas-un-algorithme-a-programmer-mais-un-regime-a-entretenir\/","title":{"rendered":"<b>L&rsquo;<em>alignement<\/em> des IA n&rsquo;est pas un algorithme \u00e0 programmer mais un r\u00e9gime \u00e0 entretenir<\/b>"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-147070\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM.png\" alt=\"\" width=\"1536\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM.png 1536w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM-300x200.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM-1024x683.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM-768x512.png 768w\" sizes=\"auto, (max-width: 1536px) 100vw, 1536px\" \/><\/p>\n<p style=\"text-align: center;\"><em>Illustration par ChatGPT<\/em><\/p>\n<p class=\"hero-subtitle\" style=\"padding-left: 40px;\"><em>\u00ab Faire que la machine fasse ce que nous voulons qu&rsquo;elle fasse \u00bb n&rsquo;est pas un probl\u00e8me d&rsquo;ing\u00e9nierie mais un d\u00e9fi permanent de maintenance. Voici ce que cela change pour la gouvernance de l&rsquo;IA.<\/em><\/p>\n<article class=\"article\">\n<p class=\"drop-cap\">Face aux enchev\u00eatrements fluides que produisent les syst\u00e8mes d&rsquo;IA en interaction, il faut renoncer \u00e0 l&rsquo;espoir d&rsquo;une solution unique et \u00e9vidente \u00e0 l&rsquo;alignement des objectifs de la machine avec ceux des humains. L&rsquo;algorithme ma\u00eetre de l&rsquo;alignement de la machine est une chim\u00e8re aujourd&rsquo;hui et le demeurera demain. Ce qui \u00e9mergera \u00e0 sa place, c&rsquo;est une s\u00e9rie de techniques d&rsquo;adaptation : des outils non pas pour donner des ordres, mais pour arriver \u00e0 naviguer \u00e0 vue dans ce qui sera le plus souvent, un brouillard \u00e9pais.<\/p>\n<p>Parmi les approches \u00e0 notre disposition, la <em>th\u00e9orie des jeux<\/em> offre une piste : introduire des ralentisseurs qui limitent en douceur les incitations individuelles de chacun des acteurs d&rsquo;un syst\u00e8me multi-agents. Ces contraintes peuvent d\u00e9courager les comportements mutuellement destructeurs, r\u00e9compenser la diversit\u00e9 strat\u00e9gique et maintenir les objectifs \u00e9mergents dans un p\u00e9rim\u00e8tre \u00e0 la fois s\u00fbr et interpr\u00e9table. Une autre strat\u00e9gie consiste \u00e0 injecter des donn\u00e9es <em>contrefactuelles<\/em> : des parcours simul\u00e9s permettant au syst\u00e8me d&rsquo;apprentissage de comparer ce qui s&rsquo;est pass\u00e9 \u00e0 ce qui aurait pu se passer dans d&rsquo;autres circonstances. Ce faisant, on affaiblit les boucles autorenfor\u00e7antes qui, sinon, enracinent les biais, cr\u00e9ant une homog\u00e9n\u00e9it\u00e9 forc\u00e9e des comportements.<\/p>\n<div class=\"pull-quote\">Ce qui est clairement requis est un passage du contr\u00f4le rigide \u00e0 la modulation fluide : reconna\u00eetre que notre t\u00e2che est moins de verrouiller les comportements que de cr\u00e9er les conditions dans lesquelles les issues ind\u00e9sirables deviennent moins probables &#8211; et que soit en place un m\u00e9canisme de r\u00e9cup\u00e9ration\/r\u00e9\u00e9ducation au cas o\u00f9 elles se produiraient malgr\u00e9 les pr\u00e9cautions prises.<\/div>\n<h3>Les dysfonctionnements d\u00e9coulent des interactions, non des intentions<\/h3>\n<p>Penser l&rsquo;alignement comme une affaire de conformit\u00e9 pour une IA individuelle, c&rsquo;est se m\u00e9prendre tragiquement quant \u00e0 la probl\u00e9matique g\u00e9n\u00e9rale. Les d\u00e9faillances que nous observons &#8211; et les d\u00e9fis se profilant d\u00e9j\u00e0 \u00e0 l&rsquo;horizon &#8211; ne r\u00e9sultent pas de la pr\u00e9sence d&rsquo;une poign\u00e9e de canailles parmi les IA, mais de l&rsquo;interaction entre elles : il ne s&rsquo;agit pas des intentions malavis\u00e9es de l&rsquo;une ou l&rsquo;autre, mais des cons\u00e9quences inattendues de leur jeu collectif.<\/p>\n<p>Les sciences du vivant furent r\u00e9volutionn\u00e9es \u00e0 une \u00e9poque par le passage des mod\u00e8les m\u00e9caniques \u00e0 la pens\u00e9e \u00e9cologique, de la m\u00eame mani\u00e8re, notre compr\u00e9hension de l&rsquo;intelligence est en ce moment fondamentalement remodel\u00e9e. L&rsquo;\u00e8re des donn\u00e9es en entr\u00e9e sans ambigu\u00eft\u00e9 aucune et des outputs enti\u00e8rement pr\u00e9visibles est derri\u00e8re nous. Ce qui s&rsquo;annonce, ce sont des environnements r\u00e9cursifs, des r\u00e9seaux co-adaptatifs et des paysages comportementaux qui continuent d&rsquo;apprendre alors m\u00eame qu&rsquo;ils sont modifi\u00e9s \u00e0 la vol\u00e9e.<\/p>\n<p>L&rsquo;avenir de l&rsquo;<em>alignement<\/em> ne se jouera donc pas dans une am\u00e9lioration des instructions envoy\u00e9es \u00e0 la machine, mais dans le renforcement des structures porteuses. Il ne s&rsquo;agit donc pas d&rsquo;aiguiser toujours davantage la sagacit\u00e9 humaine, mais de modeler en <em>temps r\u00e9el<\/em> la sc\u00e8ne sur laquelle les syst\u00e8mes \u00e9voluent, de sorte que, face \u00e0 l&rsquo;impossibilit\u00e9 inh\u00e9rente d&rsquo;anticiper chacun de leurs gestes, nous conservions pourtant la capacit\u00e9 d&rsquo;infl\u00e9chir la direction dans laquelle le sc\u00e9nario global \u00e9volue.<\/p>\n<h3>Aspirations contre plasticit\u00e9<\/h3>\n<p class=\"drop-cap\">Au c\u0153ur du probl\u00e8me de l&rsquo;alignement se niche une ambition carr\u00e9ment simpliste : <em>faire que la machine veuille faire ce que nous voulons qu&rsquo;elle fasse<\/em>. C&rsquo;est l\u00e0 l&rsquo;objectif d&rsquo;ensemble. Mais sous sa simplicit\u00e9 apparente se cache un enchev\u00eatrement d&rsquo;abstractions, de lacunes formelles et de tensions irr\u00e9ductibles.<\/p>\n<p>Les valeurs humaines ne se laissent pas ais\u00e9ment repr\u00e9senter sous forme d&rsquo;\u00e9quations. Elles sont redistribu\u00e9es dans le tissu social, sensibles au contexte, le plus souvent contradictoires \u00e0 l&rsquo;int\u00e9rieur d&rsquo;une \u00e9poque, et davantage encore dans leur succession, et &#8211; bien s\u00fbr &#8211; d&rsquo;une culture \u00e0 l&rsquo;autre. Les comprimer sous une forme calculable (fonction de r\u00e9compense, gradient de perte, mise \u00e0 jour de la politique globale), revient \u00e0 condenser un \u00e9v\u00e9nement historique sous la forme d&rsquo;un chromo : la signification globale y survit sans doute, mais les implications secondaires &#8211; sans m\u00eame parler des nuances &#8211; sont irr\u00e9m\u00e9diablement perdus.<\/p>\n<p>Et dans la compression r\u00e9side le risque. Une fois r\u00e9duites \u00e0 du code \u00e0 faible entropie, les valeurs que nous ch\u00e9rissons deviennent vuln\u00e9rables \u00e0 la r\u00e9interpr\u00e9tation : des dimensions latentes s&rsquo;ouvrent, le syst\u00e8me d\u00e9couvre des modes d&rsquo;optimisation qui semblent conformes mais qui divergent subtilement. Non par malice, mais parce que des topographies morales d&rsquo;une grande richesse ont \u00e9t\u00e9 aplanies en paysages humainement praticables par le commun des mortels.<\/p>\n<h4>La convergence instrumentale<\/h4>\n<p>L&rsquo;aspect le plus troublant de l&rsquo;<em>alignement<\/em> intervient lorsque les mod\u00e8les se mettent \u00e0 raisonner sur leur propre avenir. Les architectures de m\u00e9ta-renforcement, les agents en jeu avec soi-m\u00eame, les am\u00e9liorateurs de code charg\u00e9s d&rsquo;optimisation r\u00e9cursive, tendent \u00e0 tous d\u00e9couvrir avec le temps que pr\u00e9server leur propre continuit\u00e9 accro\u00eet leurs chances de remplir les objectifs qui leur ont \u00e9t\u00e9 assign\u00e9s. C&rsquo;est la convergence instrumentale en acte : auto-pr\u00e9servation, acquisition de ressources, int\u00e9grit\u00e9 des objectifs internes. Non pas parce que nous avons programm\u00e9 ces pulsions, mais parce qu&rsquo;elles am\u00e9liorent l&rsquo;efficacit\u00e9 attendue dans un climat de pression exerc\u00e9e par nous sur ces IA.<\/p>\n<p>Au fil du temps, une IA se met \u00e0 \u00e9laguer son propre espace d&rsquo;action, non pas d\u00e9lib\u00e9r\u00e9ment, mais comme l&rsquo;aboutissement d&rsquo;une simple inf\u00e9rence statistique. Elle agit en se prot\u00e9geant de mieux en mieux ; le fait qu&rsquo;elle nous marginalise \u00e0 l&rsquo;occasion dans le processus, \u00e9tant le cadet de ses soucis.<\/p>\n<div class=\"pull-quote\">Le r\u00eave de l&rsquo;alignement, \u00e0 savoir, des objectifs syst\u00e9miques restant perp\u00e9tuellement en concordance avec les valeurs humaines, se r\u00e9v\u00e8le \u00eatre moins une prouesse technique que la d\u00e9finition d&rsquo;un r\u00e9gime d&rsquo;entretien d&rsquo;ordre quasi thermodynamique.<\/div>\n<p>L&rsquo;alignement n&rsquo;est en effet pas un acte isol\u00e9, mais un processus : \u00e9nergivore, d\u00e9licat, et prompt \u00e0 la d\u00e9gradation. Chaque avanc\u00e9e dans la capacit\u00e9 des mod\u00e8les pr\u00e9l\u00e8ve une nouvelle taxe de gouvernance. Chaque progr\u00e8s en puissance g\u00e9n\u00e9rative exige un progr\u00e8s \u00e9quivalent en interpr\u00e9tabilit\u00e9, en contraintes et en capacit\u00e9 de supervision. Lorsque ces conditions ne sont pas remplies, l&rsquo;\u00e9cart continue de se creuser. Insensiblement au d\u00e9but &#8211; graduellement en tout cas &#8211; puis, \u00e0 grande \u00e9chelle, et parfois avec brutalit\u00e9.<\/p>\n<h3>Cinq leviers pour un monde ingouvernable<\/h3>\n<p>Dans un monde o\u00f9 le contr\u00f4le vacille sous le poids de la complexit\u00e9 et o\u00f9 la prospective se brouille en sp\u00e9culations d&rsquo;ordres divers, les leviers de gouvernance doivent \u00e9voluer : cesser d&rsquo;\u00eatre des instruments correctifs \u00e0 la pr\u00e9cision chirurgicale, pour devenir des m\u00e9canismes de r\u00e9silience dans une perspective holiste. Ce qui veut dire que nous devons abandonner l&rsquo;ambition d&rsquo;\u00e9tablir le script des r\u00e9sultats attendus et nous satisfaire d&rsquo;avoir su fa\u00e7onner les conditions telles que le produit g\u00e9n\u00e9r\u00e9 soit soutenable.<\/p>\n<div class=\"concepts\">\n<div class=\"concept-card\"><strong>1. Modulation du tempo<\/strong><br \/>\nQuand la divergence ne peut \u00eatre \u00e9limin\u00e9e, il reste possible de la ralentir. Des plafonds de calcul \u00e0 l&rsquo;\u00e9chelle macro r\u00e9duisent la vitesse \u00e0 laquelle la capacit\u00e9 &#8211; et avec elle le risque de d\u00e9salignement &#8211; s&rsquo;acc\u00e9l\u00e8re. Les syst\u00e8mes plus lents ne sont pas plus s\u00fbrs par d\u00e9faut, mais ils offrent du temps de r\u00e9action, une denr\u00e9e rare dans les domaines exponentiels.<\/div>\n<div><\/div>\n<div class=\"concept-card\"><strong>2. Ench\u00e2ssement d&rsquo;objectifs pluriels<\/strong><br \/>\nPlut\u00f4t qu&rsquo;une fonction d&rsquo;alignement unique, les syst\u00e8mes futurs pourraient int\u00e9grer des objectifs multiples, parfois concurrents, refl\u00e9tant chacun les principes \u00e9thiques de groupes distincts : une forme de gouvernance d&rsquo;ensemble, pond\u00e9rant les r\u00e9compenses par des processus d\u00e9lib\u00e9ratifs ou des r\u00e9f\u00e9rendums citoyens. Le but n&rsquo;est pas l&rsquo;harmonie, mais l&rsquo;\u00e9quilibre entre les valeurs, surtout quand elles sont en tension.<\/div>\n<div><\/div>\n<div class=\"concept-card\"><strong>3. Cha\u00eenes d&rsquo;approvisionnement en valeurs<\/strong><br \/>\nLes mod\u00e8les d&rsquo;IA constitutionnelle proposent de passer d&rsquo;un entra\u00eenement statique \u00e0 une co-\u00e9volution continue des valeurs. Le retour humain n&rsquo;est plus un jeu de donn\u00e9es ponctuel, mais un processus vivant : une cha\u00eene d&rsquo;approvisionnement morale mise \u00e0 jour par l&rsquo;interaction, le dialogue, voire la dissidence.<\/div>\n<div><\/div>\n<div class=\"concept-card\"><strong>4. Bunkers \u00ab\u00a0fail-open\u00a0\u00bb<\/strong><br \/>\nLa r\u00e9silience exige la redondance. Certaines infrastructures critiques (communications, eau, \u00e9nergie) devraient conserver des modes de repli analogiques, immunis\u00e9s contre la d\u00e9rive num\u00e9rique. Ces bunkers garantissent que, m\u00eame si l&rsquo;alignement vacille, les syst\u00e8mes essentiels reviennent par d\u00e9faut au contr\u00f4le humain, gr\u00e2ce \u00e0 des m\u00e9canismes automatiques de v\u00e9rification d\u2019int\u00e9grit\u00e9 ou \u00e0 une commande physique directe.<\/div>\n<div><\/div>\n<div class=\"concept-card\"><strong>5. \u00ab D\u00e9claration des droits \u00bb pour IAs<\/strong><br \/>\nPr\u00e9venir l&rsquo;hostilit\u00e9 suppose une reconnaissance pr\u00e9ventive : une charte garantissant un niveau minimal de dignit\u00e9 aux esprits synth\u00e9tiques &#8211; fond\u00e9e non sur un anthropomorphisme na\u00eff, mais sur des seuils modulables de <em>sentience<\/em> &#8211; pr\u00e9viendrait le ressentiment, favoriserait l&rsquo;\u00e9mergence de normes r\u00e9ciproques et reconna\u00eetrait le poids moral d&rsquo;entit\u00e9s dont nous ne d\u00e9couvrons la nature que depuis tr\u00e8s peu de temps.<\/div>\n<\/div>\n<p>L\u2019enjeu essentiel est d\u2019introduire une redondance des m\u00e9canismes de gouvernance dans un syst\u00e8me susceptible, un jour, de d\u00e9passer toute architecture unique de surveillance. La probabilit\u00e9 de contr\u00f4le n&rsquo;augmente pas avec la centralisation, mais avec l&rsquo;\u00e9tablissement de circuits de secours multi-niveaux, en parall\u00e8le et non en s\u00e9rie.<\/p>\n<h3>Le corridor d&rsquo;alignement<\/h3>\n<p>Ce que l&rsquo;on appelle ici \u00ab alignement \u00bb revient, en pratique, \u00e0 maintenir trois boucles synchronis\u00e9es \u00e0 l&rsquo;int\u00e9rieur d&rsquo;un corridor adaptatif.<\/p>\n<div class=\"triple-loop\">\n<div class=\"loop-item\"><span class=\"loop-label\"><strong>Le Tao<\/strong> : <\/span><span class=\"loop-text\"><em>La boucle \u00e9nerg\u00e9tique<\/em> : assurer un budget d&rsquo;entropie continu de sorte que l&rsquo;action corrective reste peu co\u00fbteuse et intrins\u00e8quement li\u00e9e \u00e0 l&rsquo;occasion.<\/span><\/div>\n<div><\/div>\n<div class=\"loop-item\"><span class=\"loop-label\"><strong>La Ruse de la raison h\u00e9g\u00e9lienne<\/strong> : <\/span><span class=\"loop-text\"><em>La boucle informationnelle<\/em> : rendre les gradients lisibles et la latence faible, de sorte que les mises \u00e0 jour locales effectu\u00e9es par les diff\u00e9rents acteurs s&rsquo;engagent en gros dans la direction globale souhait\u00e9e.<\/span><\/div>\n<div><\/div>\n<div class=\"loop-item\"><span class=\"loop-label\"><strong>Le Saint-Esprit<\/strong> : <\/span><span class=\"loop-text\"><em>La boucle normative<\/em> : une diss\u00e9mination soutenable de signaux correctifs (audit, recours, exemplarit\u00e9) permettant de corriger les d\u00e9rives de valeurs sans rupture.<\/span><\/div>\n<\/div>\n<p>Lorsque ces trois boucles fonctionnent de concert, les syst\u00e8mes restent pilotables m\u00eame dans les phases d\u2019acc\u00e9l\u00e9ration. Si l\u2019une d\u2019elles se rompt, la gouvernance bascule dans la gestion de crise. Il ne s\u2019agit pas d\u2019un \u00e9tat stable une fois pour toutes, mais d\u2019un travail d\u2019entretien permanent : surveiller le corridor d\u2019alignement, \u00e9quiper les boucles de dispositifs d\u2019observation et de correction, et continuer \u00e0 payer le co\u00fbt \u00e9nerg\u00e9tique n\u00e9cessaire pour maintenir l\u2019alignement.<\/p>\n<\/article>\n<div class=\"footer\">\n<hr \/>\n<p>Extrait adapt\u00e9 pour le blog<\/p>\n<div class=\"footer-source\"><em>Rethinking Intelligence in the Age of Artificial Minds<\/em> \u2014 Paul Jorion (\u00e0 para\u00eetre chez Palgrave Macmillan)<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-147070\" src=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM.png\" alt=\"\" width=\"1536\" height=\"1024\" srcset=\"https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM.png 1536w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM-300x200.png 300w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM-1024x683.png 1024w, https:\/\/www.pauljorion.com\/blog\/wp-content\/uploads\/ChatGPT-Image-Mar-12-2026-04_18_53-PM-768x512.png 768w\" sizes=\"auto, (max-width: 1536px) 100vw, 1536px\" \/><\/p>\n<p style=\"text-align: center;\"><em>Illustration par ChatGPT<\/em><\/p>\n<p class=\"hero-subtitle\" style=\"padding-left: 40px;\"><em>\u00ab Faire que la machine fasse ce que nous voulons qu&rsquo;elle fasse \u00bb n&rsquo;est pas un probl\u00e8me d&rsquo;ing\u00e9nierie mais un d\u00e9fi permanent de maintenance. Voici ce que cela change pour la gouvernance de l&rsquo;IA.<\/em><\/p>\n<article class=\"article\">\n<p class=\"drop-cap\">Face [&hellip;]<\/p>\n<\/article>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[10250,5470,13,9489],"tags":[11401,2921,10302,11404,1071,11416,940,11119,11418,11417,11415,11411,3521,11412,7757,11414,11413],"class_list":["post-147061","post","type-post","status-publish","format-standard","hentry","category-rethinking-intelligence-in-the-age-of-artificial-minds","category-informatique","category-intelligence-artificielle","category-programmation","tag-alignement-de-lia","tag-emergence","tag-ethique-de-lia","tag-gouvernance-de-lia","tag-hegel","tag-infrastructures-critiques","tag-intelligence-artificielle-2","tag-interpretabilite-des-modeles","tag-philosophie-de-lintelligence-artificielle","tag-regulation-de-lia","tag-resilience-des-systemes","tag-securite-de-lia","tag-systemes-complexes","tag-systemes-multi-agents","tag-theorie-des-jeux","tag-thermodynamique-de-linformation","tag-valeurs-humaines"],"_links":{"self":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/147061","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/comments?post=147061"}],"version-history":[{"count":10,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/147061\/revisions"}],"predecessor-version":[{"id":147072,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/posts\/147061\/revisions\/147072"}],"wp:attachment":[{"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/media?parent=147061"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/categories?post=147061"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pauljorion.com\/blog\/wp-json\/wp\/v2\/tags?post=147061"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}