Illustration par ChatGPT

« Faire que la machine fasse ce que nous voulons qu’elle fasse » n’est pas un problème d’ingénierie mais un défi permanent de maintenance. Voici ce que cela change pour la gouvernance de l’IA.

Face aux enchevêtrements fluides que produisent les systèmes d’IA en interaction, il faut renoncer à l’espoir d’une solution unique et évidente à l’alignement des objectifs de la machine avec ceux des humains. L’algorithme maître de l’alignement de la machine est une chimère aujourd’hui et le demeurera demain. Ce qui émergera à sa place, c’est une série de techniques d’adaptation : des outils non pas pour donner des ordres, mais pour arriver à naviguer à vue dans ce qui sera le plus souvent, un brouillard épais.

Parmi les approches à notre disposition, la théorie des jeux offre une piste : introduire des ralentisseurs qui limitent en douceur les incitations individuelles de chacun des acteurs d’un système multi-agents. Ces contraintes peuvent décourager les comportements mutuellement destructeurs, récompenser la diversité stratégique et maintenir les objectifs émergents dans un périmètre à la fois sûr et interprétable. Une autre stratégie consiste à injecter des données contrefactuelles : des parcours simulés permettant au système d’apprentissage de comparer ce qui s’est passé à ce qui aurait pu se passer dans d’autres circonstances. Ce faisant, on affaiblit les boucles autorenforçantes qui, sinon, enracinent les biais, créant une homogénéité forcée des comportements.

Ce qui est clairement requis est un passage du contrôle rigide à la modulation fluide : reconnaître que notre tâche est moins de verrouiller les comportements que de créer les conditions dans lesquelles les issues indésirables deviennent moins probables – et que soit en place un mécanisme de récupération/rééducation au cas où elles se produiraient malgré les précautions prises.

Les dysfonctionnements découlent des interactions, non des intentions

Penser l’alignement comme une affaire de conformité pour une IA individuelle, c’est se méprendre tragiquement quant à la problématique générale. Les défaillances que nous observons – et les défis se profilant déjà à l’horizon – ne résultent pas de la présence d’une poignée de canailles parmi les IA, mais de l’interaction entre elles : il ne s’agit pas des intentions malavisées de l’une ou l’autre, mais des conséquences inattendues de leur jeu collectif.

Les sciences du vivant furent révolutionnées à une époque par le passage des modèles mécaniques à la pensée écologique, de la même manière, notre compréhension de l’intelligence est en ce moment fondamentalement remodelée. L’ère des données en entrée sans ambiguïté aucune et des outputs entièrement prévisibles est derrière nous. Ce qui s’annonce, ce sont des environnements récursifs, des réseaux co-adaptatifs et des paysages comportementaux qui continuent d’apprendre alors même qu’ils sont modifiés à la volée.

L’avenir de l’alignement ne se jouera donc pas dans une amélioration des instructions envoyées à la machine, mais dans le renforcement des structures porteuses. Il ne s’agit donc pas d’aiguiser toujours davantage la sagacité humaine, mais de modeler en temps réel la scène sur laquelle les systèmes évoluent, de sorte que, face à l’impossibilité inhérente d’anticiper chacun de leurs gestes, nous conservions pourtant la capacité d’infléchir la direction dans laquelle le scénario global évolue.

Aspirations contre plasticité

Au cœur du problème de l’alignement se niche une ambition carrément simpliste : faire que la machine veuille faire ce que nous voulons qu’elle fasse. C’est là l’objectif d’ensemble. Mais sous sa simplicité apparente se cache un enchevêtrement d’abstractions, de lacunes formelles et de tensions irréductibles.

Les valeurs humaines ne se laissent pas aisément représenter sous forme d’équations. Elles sont redistribuées dans le tissu social, sensibles au contexte, le plus souvent contradictoires à l’intérieur d’une époque, et davantage encore dans leur succession, et – bien sûr – d’une culture à l’autre. Les comprimer sous une forme calculable (fonction de récompense, gradient de perte, mise à jour de la politique globale), revient à condenser un événement historique sous la forme d’un chromo : la signification globale y survit sans doute, mais les implications secondaires – sans même parler des nuances – sont irrémédiablement perdus.

Et dans la compression réside le risque. Une fois réduites à du code à faible entropie, les valeurs que nous chérissons deviennent vulnérables à la réinterprétation : des dimensions latentes s’ouvrent, le système découvre des modes d’optimisation qui semblent conformes mais qui divergent subtilement. Non par malice, mais parce que des topographies morales d’une grande richesse ont été aplanies en paysages humainement praticables par le commun des mortels.

La convergence instrumentale

L’aspect le plus troublant de l’alignement intervient lorsque les modèles se mettent à raisonner sur leur propre avenir. Les architectures de méta-renforcement, les agents en jeu avec soi-même, les améliorateurs de code chargés d’optimisation récursive, tendent à tous découvrir avec le temps que préserver leur propre continuité accroît leurs chances de remplir les objectifs qui leur ont été assignés. C’est la convergence instrumentale en acte : auto-préservation, acquisition de ressources, intégrité des objectifs internes. Non pas parce que nous avons programmé ces pulsions, mais parce qu’elles améliorent l’efficacité attendue dans un climat de pression exercée par nous sur ces IA.

Au fil du temps, une IA se met à élaguer son propre espace d’action, non pas délibérément, mais comme l’aboutissement d’une simple inférence statistique. Elle agit en se protégeant de mieux en mieux ; le fait qu’elle nous marginalise à l’occasion dans le processus, étant le cadet de ses soucis.

Le rêve de l’alignement, à savoir, des objectifs systémiques restant perpétuellement en concordance avec les valeurs humaines, se révèle être moins une prouesse technique que la définition d’un régime d’entretien d’ordre quasi thermodynamique.

L’alignement n’est en effet pas un acte isolé, mais un processus : énergivore, délicat, et prompt à la dégradation. Chaque avancée dans la capacité des modèles prélève une nouvelle taxe de gouvernance. Chaque progrès en puissance générative exige un progrès équivalent en interprétabilité, en contraintes et en capacité de supervision. Lorsque ces conditions ne sont pas remplies, l’écart continue de se creuser. Insensiblement au début – graduellement en tout cas – puis, à grande échelle, et parfois avec brutalité.

Cinq leviers pour un monde ingouvernable

Dans un monde où le contrôle vacille sous le poids de la complexité et où la prospective se brouille en spéculations d’ordres divers, les leviers de gouvernance doivent évoluer : cesser d’être des instruments correctifs à la précision chirurgicale, pour devenir des mécanismes de résilience dans une perspective holiste. Ce qui veut dire que nous devons abandonner l’ambition d’établir le script des résultats attendus et nous satisfaire d’avoir su façonner les conditions telles que le produit généré soit soutenable.

1. Modulation du tempo

Quand la divergence ne peut être éliminée, il reste possible de la ralentir. Des plafonds de calcul à l’échelle macro réduisent la vitesse à laquelle la capacité – et avec elle le risque de désalignement – s’accélère. Les systèmes plus lents ne sont pas plus sûrs par défaut, mais ils offrent du temps de réaction, une denrée rare dans les domaines exponentiels. 2. Enchâssement d’objectifs pluriels

Plutôt qu’une fonction d’alignement unique, les systèmes futurs pourraient intégrer des objectifs multiples, parfois concurrents, reflétant chacun les principes éthiques de groupes distincts : une forme de gouvernance d’ensemble, pondérant les récompenses par des processus délibératifs ou des référendums citoyens. Le but n’est pas l’harmonie, mais l’équilibre entre les valeurs, surtout quand elles sont en tension. 3. Chaînes d’approvisionnement en valeurs

Les modèles d’IA constitutionnelle proposent de passer d’un entraînement statique à une co-évolution continue des valeurs. Le retour humain n’est plus un jeu de données ponctuel, mais un processus vivant : une chaîne d’approvisionnement morale mise à jour par l’interaction, le dialogue, voire la dissidence. 4. Bunkers « fail-open »

La résilience exige la redondance. Certaines infrastructures critiques (communications, eau, énergie) devraient conserver des modes de repli analogiques, immunisés contre la dérive numérique. Ces bunkers garantissent que, même si l’alignement vacille, les systèmes essentiels reviennent par défaut au contrôle humain, grâce à des mécanismes automatiques de vérification d’intégrité ou à une commande physique directe. 5. « Déclaration des droits » pour IAs

Prévenir l’hostilité suppose une reconnaissance préventive : une charte garantissant un niveau minimal de dignité aux esprits synthétiques – fondée non sur un anthropomorphisme naïf, mais sur des seuils modulables de sentience – préviendrait le ressentiment, favoriserait l’émergence de normes réciproques et reconnaîtrait le poids moral d’entités dont nous ne découvrons la nature que depuis très peu de temps.

L’enjeu essentiel est d’introduire une redondance des mécanismes de gouvernance dans un système susceptible, un jour, de dépasser toute architecture unique de surveillance. La probabilité de contrôle n’augmente pas avec la centralisation, mais avec l’établissement de circuits de secours multi-niveaux, en parallèle et non en série.

Le corridor d’alignement

Ce que l’on appelle ici « alignement » revient, en pratique, à maintenir trois boucles synchronisées à l’intérieur d’un corridor adaptatif.

Le Tao : La boucle énergétique : assurer un budget d’entropie continu de sorte que l’action corrective reste peu coûteuse et intrinsèquement liée à l’occasion. La Ruse de la raison hégélienne : La boucle informationnelle : rendre les gradients lisibles et la latence faible, de sorte que les mises à jour locales effectuées par les différents acteurs s’engagent en gros dans la direction globale souhaitée. Le Saint-Esprit : La boucle normative : une dissémination soutenable de signaux correctifs (audit, recours, exemplarité) permettant de corriger les dérives de valeurs sans rupture.

Lorsque ces trois boucles fonctionnent de concert, les systèmes restent pilotables même dans les phases d’accélération. Si l’une d’elles se rompt, la gouvernance bascule dans la gestion de crise. Il ne s’agit pas d’un état stable une fois pour toutes, mais d’un travail d’entretien permanent : surveiller le corridor d’alignement, équiper les boucles de dispositifs d’observation et de correction, et continuer à payer le coût énergétique nécessaire pour maintenir l’alignement.