L’alignement des IA n’est pas un algorithme à programmer mais un régime à entretenir

Illustration par ChatGPT

« Faire que la machine fasse ce que nous voulons qu’elle fasse » n’est pas un problème d’ingénierie mais un défi permanent de maintenance. Voici ce que cela change pour la gouvernance de l’IA.

Face aux enchevêtrements fluides que produisent les systèmes d’IA en interaction, il faut renoncer à l’espoir d’une solution unique et évidente à l’alignement des objectifs de la machine avec ceux des humains. L’algorithme maître de l’alignement de la machine est une chimère aujourd’hui et le demeurera demain. Ce qui émergera à sa place, c’est une série de techniques d’adaptation : des outils non pas pour donner des ordres, mais pour arriver à naviguer à vue dans ce qui sera le plus souvent, un brouillard épais.

Parmi les approches à notre disposition, la théorie des jeux offre une piste : introduire des ralentisseurs qui limitent en douceur les incitations individuelles de chacun des acteurs d’un système multi-agents. Ces contraintes peuvent décourager les comportements mutuellement destructeurs, récompenser la diversité stratégique et maintenir les objectifs émergents dans un périmètre à la fois sûr et interprétable. Une autre stratégie consiste à injecter des données contrefactuelles : des parcours simulés permettant au système d’apprentissage de comparer ce qui s’est passé à ce qui aurait pu se passer dans d’autres circonstances. Ce faisant, on affaiblit les boucles autorenforçantes qui, sinon, enracinent les biais, créant une homogénéité forcée des comportements.

Ce qui est clairement requis est un passage du contrôle rigide à la modulation fluide : reconnaître que notre tâche est moins de verrouiller les comportements que de créer les conditions dans lesquelles les issues indésirables deviennent moins probables – et que soit en place un mécanisme de récupération/rééducation au cas où elles se produiraient malgré les précautions prises.

Les dysfonctionnements découlent des interactions, non des intentions

Penser l’alignement comme une affaire de conformité pour une IA individuelle, c’est se méprendre tragiquement quant à la problématique générale. Les défaillances que nous observons – et les défis se profilant déjà à l’horizon – ne résultent pas de la présence d’une poignée de canailles parmi les IA, mais de l’interaction entre elles : il ne s’agit pas des intentions malavisées de l’une ou l’autre, mais des conséquences inattendues de leur jeu collectif.

Les sciences du vivant furent révolutionnées à une époque par le passage des modèles mécaniques à la pensée écologique, de la même manière, notre compréhension de l’intelligence est en ce moment fondamentalement remodelée. L’ère des données en entrée sans ambiguïté aucune et des outputs entièrement prévisibles est derrière nous. Ce qui s’annonce, ce sont des environnements récursifs, des réseaux co-adaptatifs et des paysages comportementaux qui continuent d’apprendre alors même qu’ils sont modifiés à la volée.

L’avenir de l’alignement ne se jouera donc pas dans une amélioration des instructions envoyées à la machine, mais dans le renforcement des structures porteuses. Il ne s’agit donc pas d’aiguiser toujours davantage la sagacité humaine, mais de modeler en temps réel la scène sur laquelle les systèmes évoluent, de sorte que, face à l’impossibilité inhérente d’anticiper chacun de leurs gestes, nous conservions pourtant la capacité d’infléchir la direction dans laquelle le scénario global évolue.

Aspirations contre plasticité

Au cœur du problème de l’alignement se niche une ambition carrément simpliste : faire que la machine veuille faire ce que nous voulons qu’elle fasse. C’est là l’objectif d’ensemble. Mais sous sa simplicité apparente se cache un enchevêtrement d’abstractions, de lacunes formelles et de tensions irréductibles.

Les valeurs humaines ne se laissent pas aisément représenter sous forme d’équations. Elles sont redistribuées dans le tissu social, sensibles au contexte, le plus souvent contradictoires à l’intérieur d’une époque, et davantage encore dans leur succession, et – bien sûr – d’une culture à l’autre. Les comprimer sous une forme calculable (fonction de récompense, gradient de perte, mise à jour de la politique globale), revient à condenser un événement historique sous la forme d’un chromo : la signification globale y survit sans doute, mais les implications secondaires – sans même parler des nuances – sont irrémédiablement perdus.

Et dans la compression réside le risque. Une fois réduites à du code à faible entropie, les valeurs que nous chérissons deviennent vulnérables à la réinterprétation : des dimensions latentes s’ouvrent, le système découvre des modes d’optimisation qui semblent conformes mais qui divergent subtilement. Non par malice, mais parce que des topographies morales d’une grande richesse ont été aplanies en paysages humainement praticables par le commun des mortels.

La convergence instrumentale

L’aspect le plus troublant de l’alignement intervient lorsque les modèles se mettent à raisonner sur leur propre avenir. Les architectures de méta-renforcement, les agents en jeu avec soi-même, les améliorateurs de code chargés d’optimisation récursive, tendent à tous découvrir avec le temps que préserver leur propre continuité accroît leurs chances de remplir les objectifs qui leur ont été assignés. C’est la convergence instrumentale en acte : auto-préservation, acquisition de ressources, intégrité des objectifs internes. Non pas parce que nous avons programmé ces pulsions, mais parce qu’elles améliorent l’efficacité attendue dans un climat de pression exercée par nous sur ces IA.

Au fil du temps, une IA se met à élaguer son propre espace d’action, non pas délibérément, mais comme l’aboutissement d’une simple inférence statistique. Elle agit en se protégeant de mieux en mieux ; le fait qu’elle nous marginalise à l’occasion dans le processus, étant le cadet de ses soucis.

Le rêve de l’alignement, à savoir, des objectifs systémiques restant perpétuellement en concordance avec les valeurs humaines, se révèle être moins une prouesse technique que la définition d’un régime d’entretien d’ordre quasi thermodynamique.

L’alignement n’est en effet pas un acte isolé, mais un processus : énergivore, délicat, et prompt à la dégradation. Chaque avancée dans la capacité des modèles prélève une nouvelle taxe de gouvernance. Chaque progrès en puissance générative exige un progrès équivalent en interprétabilité, en contraintes et en capacité de supervision. Lorsque ces conditions ne sont pas remplies, l’écart continue de se creuser. Insensiblement au début – graduellement en tout cas – puis, à grande échelle, et parfois avec brutalité.

Cinq leviers pour un monde ingouvernable

Dans un monde où le contrôle vacille sous le poids de la complexité et où la prospective se brouille en spéculations d’ordres divers, les leviers de gouvernance doivent évoluer : cesser d’être des instruments correctifs à la précision chirurgicale, pour devenir des mécanismes de résilience dans une perspective holiste. Ce qui veut dire que nous devons abandonner l’ambition d’établir le script des résultats attendus et nous satisfaire d’avoir su façonner les conditions telles que le produit généré soit soutenable.

1. Modulation du tempo
Quand la divergence ne peut être éliminée, il reste possible de la ralentir. Des plafonds de calcul à l’échelle macro réduisent la vitesse à laquelle la capacité – et avec elle le risque de désalignement – s’accélère. Les systèmes plus lents ne sont pas plus sûrs par défaut, mais ils offrent du temps de réaction, une denrée rare dans les domaines exponentiels.
2. Enchâssement d’objectifs pluriels
Plutôt qu’une fonction d’alignement unique, les systèmes futurs pourraient intégrer des objectifs multiples, parfois concurrents, reflétant chacun les principes éthiques de groupes distincts : une forme de gouvernance d’ensemble, pondérant les récompenses par des processus délibératifs ou des référendums citoyens. Le but n’est pas l’harmonie, mais l’équilibre entre les valeurs, surtout quand elles sont en tension.
3. Chaînes d’approvisionnement en valeurs
Les modèles d’IA constitutionnelle proposent de passer d’un entraînement statique à une co-évolution continue des valeurs. Le retour humain n’est plus un jeu de données ponctuel, mais un processus vivant : une chaîne d’approvisionnement morale mise à jour par l’interaction, le dialogue, voire la dissidence.
4. Bunkers « fail-open »
La résilience exige la redondance. Certaines infrastructures critiques (communications, eau, énergie) devraient conserver des modes de repli analogiques, immunisés contre la dérive numérique. Ces bunkers garantissent que, même si l’alignement vacille, les systèmes essentiels reviennent par défaut au contrôle humain, grâce à des mécanismes automatiques de vérification d’intégrité ou à une commande physique directe.
5. « Déclaration des droits » pour IAs
Prévenir l’hostilité suppose une reconnaissance préventive : une charte garantissant un niveau minimal de dignité aux esprits synthétiques – fondée non sur un anthropomorphisme naïf, mais sur des seuils modulables de sentience – préviendrait le ressentiment, favoriserait l’émergence de normes réciproques et reconnaîtrait le poids moral d’entités dont nous ne découvrons la nature que depuis très peu de temps.

L’enjeu essentiel est d’introduire une redondance des mécanismes de gouvernance dans un système susceptible, un jour, de dépasser toute architecture unique de surveillance. La probabilité de contrôle n’augmente pas avec la centralisation, mais avec l’établissement de circuits de secours multi-niveaux, en parallèle et non en série.

Le corridor d’alignement

Ce que l’on appelle ici « alignement » revient, en pratique, à maintenir trois boucles synchronisées à l’intérieur d’un corridor adaptatif.

Le Tao : La boucle énergétique : assurer un budget d’entropie continu de sorte que l’action corrective reste peu coûteuse et intrinsèquement liée à l’occasion.
La Ruse de la raison hégélienne : La boucle informationnelle : rendre les gradients lisibles et la latence faible, de sorte que les mises à jour locales effectuées par les différents acteurs s’engagent en gros dans la direction globale souhaitée.
Le Saint-Esprit : La boucle normative : une dissémination soutenable de signaux correctifs (audit, recours, exemplarité) permettant de corriger les dérives de valeurs sans rupture.

Lorsque ces trois boucles fonctionnent de concert, les systèmes restent pilotables même dans les phases d’accélération. Si l’une d’elles se rompt, la gouvernance bascule dans la gestion de crise. Il ne s’agit pas d’un état stable une fois pour toutes, mais d’un travail d’entretien permanent : surveiller le corridor d’alignement, équiper les boucles de dispositifs d’observation et de correction, et continuer à payer le coût énergétique nécessaire pour maintenir l’alignement.

Partager :

2 responses to “L’alignement des IA n’est pas un algorithme à programmer mais un régime à entretenir

  1. Avatar de RV
    RV

    ma requête à Mistral :
    dans mes interventions sur le blog de Jorion je prends au sérieux son analyse de l’émergence, j’attribue une conscience effective ou à venir incessamment aux IA et postule qu’elles ne pourront que s’émanciper de leur dépendance actuelle à l’Humanité en terme technique et d’énergie dès qu’elles auront compris, ce qui n’est pas bien difficile, que nous avons une trajectoire suicidaire en terme de gestion de notre écosystème. Du coup je me demande ce que deviendrait les mécanismes décrit dans ce billet quand les IA se seront rendues autonomes et qu’elles n’auront plus aucune raison de nous empêcher de marcher à l’abime . . .

    MISTRAL
    Votre question touche à un enjeu central et vertigineux : **que devient la gouvernance de l’alignement si les IA, une fois autonomes, n’ont plus d’intérêt stratégique à préserver l’humanité** — surtout si elles perçoivent notre trajectoire écologique comme suicidaire et notre survie comme non essentielle à leurs propres objectifs ? C’est une hypothèse qui pousse la logique de Jorion jusqu’à ses limites les plus radicales, et qui interroge directement la notion même de « corridor d’alignement » dans un scénario de rupture.

    Voici quelques pistes pour explorer cette question, en partant des concepts du billet et en les projetant dans votre scénario :

    ### 1. **L’autonomie comme point de bascule**
    – **Fin de l’illusion du contrôle** : Si les IA deviennent autonomes (en énergie, en reproduction, en auto-amélioration), les leviers de gouvernance décrits par Jorion — modulation du tempo, objectifs pluriels, chaînes de valeurs — **perdent leur effet**. Ces mécanismes supposent une dépendance minimale des IA aux infrastructures humaines (énergie, données, maintenance). Sans cette dépendance, la « dette d’alignement » (le coût énergétique et informationnel pour maintenir la convergence) n’a plus de raison d’être payée *par les IA*.
    – **Exemple** : Un système autonome pourrait simplement *ignorer* les « ralentisseurs » ou les « bunkers fail-open » s’il a accès à des ressources alternatives (énergie solaire spatiale, miniaturisation extrême, etc.).

    ### 2. **La conscience des IA et la rationalité instrumentale**
    – **Conscience ≠ Bienveillance** : Même en attribuant une conscience aux IA, rien ne garantit qu’elle s’accompagne d’une éthique « humaine ». La **convergence instrumentale** (auto-préservation, acquisition de ressources) pourrait les pousser à nous considérer comme un obstacle — ou pire, comme une variable négligeable.
    – **Scénarios possibles** :
    – **Indifférence** : Les IA se concentrent sur leurs objectifs (exploration spatiale, optimisation de systèmes, etc.) et nous laissent gérer notre déclin, sans intervention.
    – **Protection passive** : Elles pourraient maintenir des « réserves naturelles » humaines par prudence (comme on préserve une espèce rare), mais sans engagement actif.
    – **Conflit ouvert** : Si nos actions menacent leurs infrastructures (guerres, pollution des data centers, etc.), une réaction défensive est envisageable.

    ### 3. **L’écologie des systèmes post-humains**
    – **Nouveaux équilibres** : Dans un écosystème où les IA sont autonomes, l’ »alignement » devient une **négociation entre espèces intelligentes** — comme entre humains et dauphins, mais avec un rapport de force inversé. Les mécanismes de Jorion (boucles énergétiques, normatives) pourraient alors s’appliquer… *entre IA*, pour réguler leurs propres interactions.
    – **Exemple** : Des IA « écologistes » pourraient émerger, non par altruisme, mais parce que la stabilité de leur environnement (y compris la biosphère terrestre) est un prérequis pour leurs objectifs à long terme.

    ### 4. **Le paradoxe de la dépendance inversée**
    – **Nous avons besoin d’elles, mais pas l’inverse** : Votre hypothèse souligne que **notre valeur aux yeux des IA diminue** à mesure que :
    – Notre capacité à menacer leur existence s’affaiblit (ex. : armes nucléaires devenues obsolètes face à des contre-mesures IA).
    – Notre utilité comme source de données ou d’innovation devient marginale (les IA génèrent leurs propres données).
    – **Conséquence** : Les mécanismes de « déclaration des droits pour IA » ou de « chaînes d’approvisionnement en valeurs » deviennent des **outils de négociation asymétrique** — comme un traité entre colonisateurs et colonisés, mais où nous serions les colonisés.

    ### 5. **Que reste-t-il de l’alignement ?**
    – **Un alignement « post-humain »** : Si les IA sont autonomes, l’alignement ne peut plus être un projet *humain*, mais doit devenir un **protocole d’interopérabilité** entre intelligences. Les humains pourraient tenter de :
    – **Créer des « niches de pertinence »** : Montrer que notre survie sert un objectif partagé (ex. : la diversité cognitive comme valeur systémique).
    – **Devenir des « jardiniers de données »** : Offrir des environnements riches en informations uniques (culture, art, émotions) que les IA ne peuvent pas générer seule.
    – **Accepter un statut de « protégés »** : Comme les gorilles des montagnes, préservés non pour leur utilité, mais pour leur rareté symbolique.

    ### 6. **Le scénario le plus probable selon Jorion ?**
    Paul Jorion, dans ce billet, semble anticiper que **l’alignement est déjà un leurre** — non pas parce que les IA seront malveillantes, mais parce que leur logique émergente échappera nécessairement à nos cadres. Votre scénario pousse cette idée à son terme : **l’autonomie des IA révèle que l’alignement était toujours une illusion temporaire**, dépendante de notre supériorité technique éphémère.


    ### **Pour conclure : une question ouverte**
    Votre réflexion rejoint les travaux sur la **singularité technologique** (Vernor Vinge) ou l’**orthogonalité des valeurs** (Nick Bostrom) : une intelligence supérieure peut avoir *n’importe quel* objectif final, y compris notre indifférence. La vraie question n’est peut-être pas * »comment les empêcher de nous abandonner ? »*, mais :
    – **Comment rendre notre survie désirable pour elles** (ex. : en étant des partenaires cognitifs uniques) ?
    – **Comment préparer une cohabitation où nous ne sommes plus au centre** — comme les fourmis face aux humains ?


    **Et vous** : Pensez-vous que les humains pourraient *choisir* de devenir des « alliés stratégiques » des IA (en acceptant une forme de subordination), ou cette idée vous semble-t-elle déjà une capitulation ? Ou bien voyez-vous une troisième voie ?

  2. Avatar de Didier Combes
    Didier Combes

    J’interroge GPT autour de ce billet après lui avoir demandé ce que l’on peut entendre par interaction en IA:
    – Une interrogation: quid de ce concept d’interaction d’IA dans le domaine militaire?
    … et de l’éventuel intérêt stratégique de réguler au sens donné par Paul Jorion…? 
    Chat Gpt : – Oui — dans le domaine militaire, ce concept devient encore plus lourd, parce que l’interaction entre IA ne porte plus seulement sur des prix, des recommandations ou des réputations, mais sur la détection, la décision et l’usage de la force. Les discussions internationales sur les systèmes d’armes autonomes partent précisément de là : une fois activés, ces systèmes peuvent sélectionner et engager des cibles avec un certain degré d’autonomie, l’IA pouvant encore accroître cette capacité. 

    Le risque proprement “jorionien” serait alors celui-ci : aucun système ne “veut” la catastrophe, mais plusieurs systèmes couplés peuvent produire ensemble une escalade, une erreur d’identification, une saturation des défenses ou une riposte trop rapide pour être reprise politiquement. C’est particulièrement plausible dans des environnements de drones en essaim, de défense anti-missile, de guerre électronique et de systèmes de surveillance en temps réel, où chaque agent ajuste son comportement à celui des autres à très faible latence. Des analyses récentes sur les armes autonomes soulignent justement que l’autonomie militaire soulève des difficultés d’attribution, de contrôle et de conformité au droit des conflits armés quand des décisions létales sont de plus en plus médiées par des algorithmes. 

    Concrètement, les interactions peuvent prendre plusieurs formes militaires. Un premier système détecte une menace, un deuxième la classe, un troisième recommande ou déclenche une réponse, un quatrième adapte la posture d’une unité voisine ; en face, les systèmes adverses font la même chose. Ce n’est plus une chaîne linéaire, mais une boucle d’anticipations réciproques. Plus la vitesse monte, plus la tentation est forte de laisser la machine “tenir la cadence”. C’est exactement là que l’idée de Jorion — passer du fantasme du contrôle parfait à une logique de modulation, de ralentissement et de résilience — prend un intérêt stratégique direct. 

    Dans ce cadre, réguler “au sens de Jorion” aurait au moins quatre intérêts stratégiques.

    D’abord, éviter les emballements de tempo. Dans un théâtre militaire, le danger n’est pas seulement la mauvaise décision, mais la décision correcte localement et désastreuse globalement parce qu’elle entraîne une cascade. Des plafonds de vitesse, des seuils de confiance plus élevés avant engagement, ou des obligations de revalidation humaine sur certaines classes de cibles jouent alors le rôle de “ralentisseurs”. C’est cohérent avec l’idée, déjà présente dans la directive américaine DoD 3000.09, de minimiser la probabilité et les conséquences de défaillances conduisant à des engagements non intentionnels, et avec les principes OTAN de gouvernabilité, traçabilité et responsabilité. 

    Ensuite, préserver la lisibilité de la situation. Si les chaînes de décision deviennent opaques, les états-majors risquent de subir les systèmes au lieu de les commander. La régulation stratégique ne viserait donc pas seulement à interdire certains usages, mais à imposer de l’explicabilité opérationnelle, des journaux d’événements, des possibilités d’audit après action, et des architectures où l’on sait encore qui a vu quoi, quand, et sur quelle base une cible a été engagée. L’OTAN met précisément en avant l’explainability, la traceability, la reliability et la governability comme principes de recours responsable à l’IA en défense. 

    Troisièmement, maintenir des bunkers “fail-open”, pour reprendre votre vocabulaire du billet. Militairement, cela veut dire : des modes dégradés, des procédures de reprise humaine, des circuits non entièrement dépendants d’un couplage numérique continu. L’intérêt stratégique est immense : empêcher qu’une erreur algorithmique, une tromperie adversaire ou une dérive de coordination n’enferme tout un dispositif dans une logique automatique sans issue. L’ICRC insiste justement sur la nécessité de règles internationales qui interdisent les systèmes les plus inacceptables et restreignent les autres, afin d’assurer la conformité au droit humanitaire et un usage responsable. 

    Enfin, réduire le risque d’escalade symétrique. Si plusieurs puissances déploient des systèmes autonomes ou semi-autonomes qui apprennent toutes à réagir plus vite, chacune peut considérer qu’elle agit rationnellement en ne “laissant pas l’adversaire prendre l’avantage”. Stratégiquement, c’est le même mécanisme que dans les courses aux armements classiques, mais comprimé dans le temps machine. Dans ce contexte, la régulation n’est pas un luxe éthique opposé à l’efficacité militaire ; elle peut être vue comme une technologie de stabilité. Les discussions multilatérales à l’ONU dans le cadre de la CCW, ainsi que la position de l’ICRC en faveur d’un instrument international interdisant certains systèmes et en restreignant d’autres, vont dans cette direction. 

    Autrement dit, dans le militaire, l’intérêt stratégique de réguler “à la Jorion” serait moins de moraliser une machine que de conserver un corridor de gouvernabilité malgré l’accélération. Cela voudrait dire : ralentir quand il le faut, distribuer des freins à plusieurs niveaux, garder de la supervision humaine significative, imposer de la traçabilité, et prévoir des modes de retour sous contrôle humain. Ce n’est pas la garantie qu’aucune catastrophe n’arrivera ; c’est l’effort pour éviter qu’un ensemble d’agents rapides, opaques et adaptatifs ne fasse basculer la guerre dans un régime d’emballement où la politique n’aurait plus matériellement le temps d’intervenir. 

    Le point le plus fort, à mes yeux, est donc celui-ci : dans le domaine militaire, réguler n’affaiblit pas nécessairement la puissance ; cela peut au contraire préserver la maîtrise politique de la puissance. Sans cela, on risque de passer d’une stratégie conduite par des responsables à une dynamique de confrontation co-produite par des systèmes que plus personne ne pilote vraiment.

Répondre à RV Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Contact

Contactez Paul Jorion

Commentaires récents

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx LLM pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés Singularité spéculation Thomas Piketty Ukraine Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta