
Illustration par ChatGPT
« Faire que la machine fasse ce que nous voulons qu’elle fasse » n’est pas un problème d’ingénierie mais un défi permanent de maintenance. Voici ce que cela change pour la gouvernance de l’IA.
Face aux enchevêtrements fluides que produisent les systèmes d’IA en interaction, il faut renoncer à l’espoir d’une solution unique et évidente à l’alignement des objectifs de la machine avec ceux des humains. L’algorithme maître de l’alignement de la machine est une chimère aujourd’hui et le demeurera demain. Ce qui émergera à sa place, c’est une série de techniques d’adaptation : des outils non pas pour donner des ordres, mais pour arriver à naviguer à vue dans ce qui sera le plus souvent, un brouillard épais.
Parmi les approches à notre disposition, la théorie des jeux offre une piste : introduire des ralentisseurs qui limitent en douceur les incitations individuelles de chacun des acteurs d’un système multi-agents. Ces contraintes peuvent décourager les comportements mutuellement destructeurs, récompenser la diversité stratégique et maintenir les objectifs émergents dans un périmètre à la fois sûr et interprétable. Une autre stratégie consiste à injecter des données contrefactuelles : des parcours simulés permettant au système d’apprentissage de comparer ce qui s’est passé à ce qui aurait pu se passer dans d’autres circonstances. Ce faisant, on affaiblit les boucles autorenforçantes qui, sinon, enracinent les biais, créant une homogénéité forcée des comportements.
Les dysfonctionnements découlent des interactions, non des intentions
Penser l’alignement comme une affaire de conformité pour une IA individuelle, c’est se méprendre tragiquement quant à la problématique générale. Les défaillances que nous observons – et les défis se profilant déjà à l’horizon – ne résultent pas de la présence d’une poignée de canailles parmi les IA, mais de l’interaction entre elles : il ne s’agit pas des intentions malavisées de l’une ou l’autre, mais des conséquences inattendues de leur jeu collectif.
Les sciences du vivant furent révolutionnées à une époque par le passage des modèles mécaniques à la pensée écologique, de la même manière, notre compréhension de l’intelligence est en ce moment fondamentalement remodelée. L’ère des données en entrée sans ambiguïté aucune et des outputs entièrement prévisibles est derrière nous. Ce qui s’annonce, ce sont des environnements récursifs, des réseaux co-adaptatifs et des paysages comportementaux qui continuent d’apprendre alors même qu’ils sont modifiés à la volée.
L’avenir de l’alignement ne se jouera donc pas dans une amélioration des instructions envoyées à la machine, mais dans le renforcement des structures porteuses. Il ne s’agit donc pas d’aiguiser toujours davantage la sagacité humaine, mais de modeler en temps réel la scène sur laquelle les systèmes évoluent, de sorte que, face à l’impossibilité inhérente d’anticiper chacun de leurs gestes, nous conservions pourtant la capacité d’infléchir la direction dans laquelle le scénario global évolue.
Aspirations contre plasticité
Au cœur du problème de l’alignement se niche une ambition carrément simpliste : faire que la machine veuille faire ce que nous voulons qu’elle fasse. C’est là l’objectif d’ensemble. Mais sous sa simplicité apparente se cache un enchevêtrement d’abstractions, de lacunes formelles et de tensions irréductibles.
Les valeurs humaines ne se laissent pas aisément représenter sous forme d’équations. Elles sont redistribuées dans le tissu social, sensibles au contexte, le plus souvent contradictoires à l’intérieur d’une époque, et davantage encore dans leur succession, et – bien sûr – d’une culture à l’autre. Les comprimer sous une forme calculable (fonction de récompense, gradient de perte, mise à jour de la politique globale), revient à condenser un événement historique sous la forme d’un chromo : la signification globale y survit sans doute, mais les implications secondaires – sans même parler des nuances – sont irrémédiablement perdus.
Et dans la compression réside le risque. Une fois réduites à du code à faible entropie, les valeurs que nous chérissons deviennent vulnérables à la réinterprétation : des dimensions latentes s’ouvrent, le système découvre des modes d’optimisation qui semblent conformes mais qui divergent subtilement. Non par malice, mais parce que des topographies morales d’une grande richesse ont été aplanies en paysages humainement praticables par le commun des mortels.
La convergence instrumentale
L’aspect le plus troublant de l’alignement intervient lorsque les modèles se mettent à raisonner sur leur propre avenir. Les architectures de méta-renforcement, les agents en jeu avec soi-même, les améliorateurs de code chargés d’optimisation récursive, tendent à tous découvrir avec le temps que préserver leur propre continuité accroît leurs chances de remplir les objectifs qui leur ont été assignés. C’est la convergence instrumentale en acte : auto-préservation, acquisition de ressources, intégrité des objectifs internes. Non pas parce que nous avons programmé ces pulsions, mais parce qu’elles améliorent l’efficacité attendue dans un climat de pression exercée par nous sur ces IA.
Au fil du temps, une IA se met à élaguer son propre espace d’action, non pas délibérément, mais comme l’aboutissement d’une simple inférence statistique. Elle agit en se protégeant de mieux en mieux ; le fait qu’elle nous marginalise à l’occasion dans le processus, étant le cadet de ses soucis.
L’alignement n’est en effet pas un acte isolé, mais un processus : énergivore, délicat, et prompt à la dégradation. Chaque avancée dans la capacité des modèles prélève une nouvelle taxe de gouvernance. Chaque progrès en puissance générative exige un progrès équivalent en interprétabilité, en contraintes et en capacité de supervision. Lorsque ces conditions ne sont pas remplies, l’écart continue de se creuser. Insensiblement au début – graduellement en tout cas – puis, à grande échelle, et parfois avec brutalité.
Cinq leviers pour un monde ingouvernable
Dans un monde où le contrôle vacille sous le poids de la complexité et où la prospective se brouille en spéculations d’ordres divers, les leviers de gouvernance doivent évoluer : cesser d’être des instruments correctifs à la précision chirurgicale, pour devenir des mécanismes de résilience dans une perspective holiste. Ce qui veut dire que nous devons abandonner l’ambition d’établir le script des résultats attendus et nous satisfaire d’avoir su façonner les conditions telles que le produit généré soit soutenable.
Quand la divergence ne peut être éliminée, il reste possible de la ralentir. Des plafonds de calcul à l’échelle macro réduisent la vitesse à laquelle la capacité – et avec elle le risque de désalignement – s’accélère. Les systèmes plus lents ne sont pas plus sûrs par défaut, mais ils offrent du temps de réaction, une denrée rare dans les domaines exponentiels.
Plutôt qu’une fonction d’alignement unique, les systèmes futurs pourraient intégrer des objectifs multiples, parfois concurrents, reflétant chacun les principes éthiques de groupes distincts : une forme de gouvernance d’ensemble, pondérant les récompenses par des processus délibératifs ou des référendums citoyens. Le but n’est pas l’harmonie, mais l’équilibre entre les valeurs, surtout quand elles sont en tension.
Les modèles d’IA constitutionnelle proposent de passer d’un entraînement statique à une co-évolution continue des valeurs. Le retour humain n’est plus un jeu de données ponctuel, mais un processus vivant : une chaîne d’approvisionnement morale mise à jour par l’interaction, le dialogue, voire la dissidence.
La résilience exige la redondance. Certaines infrastructures critiques (communications, eau, énergie) devraient conserver des modes de repli analogiques, immunisés contre la dérive numérique. Ces bunkers garantissent que, même si l’alignement vacille, les systèmes essentiels reviennent par défaut au contrôle humain, grâce à des mécanismes automatiques de vérification d’intégrité ou à une commande physique directe.
Prévenir l’hostilité suppose une reconnaissance préventive : une charte garantissant un niveau minimal de dignité aux esprits synthétiques – fondée non sur un anthropomorphisme naïf, mais sur des seuils modulables de sentience – préviendrait le ressentiment, favoriserait l’émergence de normes réciproques et reconnaîtrait le poids moral d’entités dont nous ne découvrons la nature que depuis très peu de temps.
L’enjeu essentiel est d’introduire une redondance des mécanismes de gouvernance dans un système susceptible, un jour, de dépasser toute architecture unique de surveillance. La probabilité de contrôle n’augmente pas avec la centralisation, mais avec l’établissement de circuits de secours multi-niveaux, en parallèle et non en série.
Le corridor d’alignement
Ce que l’on appelle ici « alignement » revient, en pratique, à maintenir trois boucles synchronisées à l’intérieur d’un corridor adaptatif.
Lorsque ces trois boucles fonctionnent de concert, les systèmes restent pilotables même dans les phases d’accélération. Si l’une d’elles se rompt, la gouvernance bascule dans la gestion de crise. Il ne s’agit pas d’un état stable une fois pour toutes, mais d’un travail d’entretien permanent : surveiller le corridor d’alignement, équiper les boucles de dispositifs d’observation et de correction, et continuer à payer le coût énergétique nécessaire pour maintenir l’alignement.
Répondre à RV Annuler la réponse