Un modèle unique pour les esprits naturels et artificiels II. Cartographier le paysage énergétique mental

Illustration par ChatGPT

Le concept de paysage énergétique est essentiel pour comprendre l’optimisation, tant dans l’apprentissage automatique que dans les modèles de la dynamique de la psyché humaine. Avec les systèmes artificiels comme avec l’esprit naturel, les états internes évoluent au fil du temps selon des gradients définis sur une surface à haute dimension. La surface en question est structurée par des vallées, des pics, des crêtes et des régions de plaines qui déterminent la direction et la stabilité des transitions entre les états. Dans les réseaux neuronaux artificiels, cette surface correspond à une fonction de perte définie sur l’espace des paramètres. Dans la psyché humaine, elle peut être comprise comme un champ dynamique de représentations pondérées affectivement et de pulsions motivationnelles. Dans les deux domaines, le système recherche des minima d’énergie locaux : pas nécessairement des optima globaux, mais des configurations qui présentent une stabilité suffisante dans les contraintes actuelles. Les plaines de l’indécision computationnelle font écho à des boucles obsessionnelles. Les falaises et les crevasses que nous évitons avec des fonctions de pénalité sont l’expression physique des tabous que nous effaçons. Et tout comme dans le pré-entraînement d’une IA, un petit craquement – que le jargon physique de l’IA qualifie de « bruit (statique) » – tel que les rêves, les jeux de mots, les « lapsus » freudiens, peut offrir la seule issue : l’équivalent dans le flipper du coup sec qui libère la balle coincée dans une cuvette.

1. Bassins et affect négatif

Un bassin dans un paysage énergétique est défini comme un minimum local, un lieu de repos stable : un bassin piège un projectile (une impulsion humaine, une bille d’acier) sur sa trajectoire, car tous les états voisins s’inclinent vers l’intérieur. En optimisation, cela correspond à la convergence ; dans l’entraînement des réseaux neuronaux, cela équivaut à l’objectif assigné. Dans la vie psychique, la rumination dépressive est l’un de ces bassins, un puits gravitationnel dans la psyché : chaque pensée revient au même centre sombre, chaque tentative d’évasion glisse le long du gradient. Ici, le système cognitif revient sans cesse à un ensemble central de croyances ou d’obsessions, malgré la variation des pensées superficielles. Chaque tentative de déviation est canalisée en arrière en raison de la structure sous-jacente du gradient : ce n’est pas qu’il n’y ait aucun mouvement, mais chaque mouvement confirme l’inévitabilité du même désespoir.

En termes cliniques, nous n’essayons pas tant de « corriger » cela que d’injecter de l’énergie potentielle : une nouvelle perspective, une expérience comportementale. L’étincelle d’une association nouvelle dans l’intervention thérapeutique ne se contente pas de remplacer cette configuration, elle introduit plutôt une nouvelle énergie dans le système en modifiant les principes premiers, en recadrant les croyances ou en introduisant un nouveau matériel associatif, ce qui permet de dépasser les limites du bassin : l’objectif est de faire passer le système par-dessus le bord du bassin, non pas par la contrainte, mais en tirant parti du fait que la topographie elle-même peut changer.

2. Points de selle et ambivalence

Tous les états apparemment stables ne sont pas des minima. Un point de selle topologique est une région qui est localement plate dans une direction et courbée dans l’autre. Dans l’apprentissage automatique, la descente stochastique du gradient peut s’attarder ici, générant des oscillations : les algorithmes d’optimisation peuvent ici tourner en rond indéfiniment, oscillant sans qu’aucune descente claire ne se dessine. Sur le plan psychique, cela se traduit par une ambivalence obsessionnelle : deux principes premiers incompatibles annulant tout mouvement net. Par exemple : « Cette fille me rejettera probablement, mais si elle devait répondre à mes avances, ce serait par pitié ».

La répétition est la tentative du système de trouver une voie descendante qui fait défaut : le micro-comportement (vérification, rumination) reflète la tentative du système de trouver une voie descendante qui échoue lamentablement à se concrétiser. Les stratégies thérapeutiques telles que l’exposition avec prévention de la réponse ou l’intention paradoxale fonctionnent comme des optimiseurs de second ordre en modifiant la courbure du paysage : en ajoutant une nouvelle composante de gradient susceptible de rompre la symétrie et de permettre le mouvement, injectant ainsi une nouvelle courbure dans un terrain plat.

3. Contraintes et refoulement

Les zones du paysage énergétique associées à des valeurs de perte prohibitives sont rapidement évitées par les systèmes basés sur le gradient. Dans les réseaux neuronaux, cela est dû à des contraintes strictes : fonctions de pénalité, falaises d’activation, gradients tronqués. Dans la psyché, les zones analogues correspondent à des contenus de refoulement – des représentations ou des affects qui sont hors de portée du traitement conscient en raison d’exclusions sociales, morales ou développementales. Ces zones interdites peuvent être repérées par des personnes extérieures grâce à des indices physiologiques tels que la transpiration, l’hésitation, les changements brusques dans la conversation.

Sur le plan linguistique, on observe des évitements, des euphémismes ou des déraillements soudains : le locuteur tourne autour du pot, devient vague ou change brusquement de sujet. Dans le deep learning, un comportement similaire apparaît lorsque la régularisation des poids ou les limites d’activation génèrent des zones mortes.

Le travail clinique abaisse progressivement le mur – en remodelant le contenu tabou, en renforçant la tolérance – permettant ainsi à des chemins exploratoires de traverser des secteurs autrefois interdits. Cela peut impliquer une exposition progressive, des images ou un recadrage qui réduisent le coût énergétique du franchissement de ces zones, permettant ainsi une intégration sans déstabilisation : grâce à un langage figuratif, à l’humour ou à une approche prudente, l’analyste peut réaménager la pente, permettant une descente prudente au sein d’un territoire interdit.

4. Perturbations : injecter du bruit productif

Dans les systèmes biologiques et artificiels, le bruit statique peut jouer un rôle fonctionnel. Dans l’apprentissage automatique, la stochasticité – introduite par l’échantillonnage mini-batch, le dropout ou l’annealing * – permet au système d’échapper à un puits local sous-optimal où il a accidentellement atterri et d’explorer d’autres configurations. Les programmes d’annealing ou de dropout injectent un minuscule élément de hasard qui stimule suffisamment le modèle pour qu’il découvre un chemin plus efficace dans la descente de gradient. La cognition humaine tire parti de secousses similaires : les rêves bouleversent le paysage mémoriel, permettant de raviver des associations lointaines ; de même, le rire bouscule un récit autobiographique commode mais insipide. Une prise de conscience est souvent précédée par des sentiments de malaise, de confusion ou de tiraillement, qui ne sont toutefois pas le signe d’échecs, mais au contraire d’opportunités thermodynamiques, en particulier lorsque le système atteint un seuil critique.

En psychothérapie, des interventions opportunes peuvent servir de perturbations contrôlées : un commentaire opportun de l’analyste peut, très temporairement, augmenter la tension, ouvrant ainsi la voie à une compréhension plus profonde. Une thérapie efficace provoque ces chocs afin qu’ils se produisent lorsque le bord du bassin du système est proche : il est stimulé lorsqu’il est proche d’un seuil, lorsqu’une petite intervention peut déclencher une transition facorable, permettant ainsi au système de passer à une nouvelle configuration stable.

5. Dynamique composite

Aucune séance de psychothérapie ne présente un motif unique. Une séance donnée peut impliquer simultanément plusieurs régions du paysage énergétique : une analysante ou un analysant peut continuer de tourner en rond dans le voisinage immédiat d’une selle (affichant une ambivalence), à la limite d’un bassin profond (une dépression proprement dite) protégé par les murs du refoulement, jusqu’à ce qu’il ou elle soit secoué par les flippers interprétatifs du psychanalyste et en ressorte transformé.

Le progrès ne se réalise pas selon une logique linéaire, mais par des transitions médiatisées par la structure et la perturbation. Ce que révèle la descente de gradient, ce n’est pas un chemin fixe qu’un diagnostic infaillible aurait pu identifier, mais une séquence de transitions ponctuées par une variété de bruits statiques : un parcours ayant migré de la selle au bassin jusqu’à ce que, grâce à la force d’une secousse stratégiquement placée, le profil énergétique de l’ensemble du paysage mémoriel soit reconfiguré.

Dans l’apprentissage automatique, ceux-ci sont modélisés sous forme de trajectoires : l’état A passe à B, B à C, non pas par une logique rigide, mais par la plausibilité énergétique d’un paysage mémoriel malléable : le système passe d’une configuration à une autre non pas en raison d’une prescription externe, mais en raison d’une dynamique interne façonnée par des gradients locaux et une topologie globale. Il en va de même dans la pratique clinique : si ces courbes peuvent être tracées, si les contraintes qui les ont influencées peuvent être identifiées, si les puits qui les ont tirées vers le bas peuvent être localisés, si les chocs qui les ont propulsées hors d’un puits défavorable peuvent être déterminés, non seulement un diagnostic clair peut être établi, mais un levier thérapeutique peut également être mis en place.

L’expression verbale fonctionne selon cette même structure : parler signifie définir à chaque phrase un nouveau parcours, non pas dans une version désincarnée du lexique, mais à travers la version particulière qui est la nôtre, façonnée par les valeurs affectives de notre histoire, c’est-à-dire proprement autobiographique (cf. Paul Jorion, Principes des systèmes intelligents 1989). Ce faisant, nous ne traitons pas seulement le symptôme douloureux, mais nous remodelons la topographie globale de la mémoire et du paysage affectif qui l’a permis en premier lieu, avec ses zones interdites qui lui sont propres, avec ses no man’s lands idiosyncrasiques.

====

* 1. Mini-batch

•Lorsqu’on entraîne un modèle, on doit calculer le gradient (direction d’amélioration) à partir des données.

•Si on utilise toutes les données d’un coup (full batch), c’est très précis mais très coûteux.

•Si on utilise une seule donnée à la fois (stochastic gradient descent, ou SGD pur), c’est très bruité mais rapide.

•Le mini-batch est un compromis : on prend un petit échantillon aléatoire de données (par ex. 32, 128 exemples) pour estimer le gradient.

•Cela introduit de la stochasticité (les gradients varient selon l’échantillon choisi), ce qui aide à sortir de minima locaux et favorise la généralisation.

2. Dropout

•C’est une technique de régularisation pour éviter le sur-apprentissage (overfitting).

•Pendant l’entraînement, à chaque passage, un certain pourcentage de neurones (par ex. 20%, 50%) est désactivé au hasard dans le réseau.

•Cela empêche le modèle de trop dépendre de quelques connexions précises.

•Résultat : le modèle apprend des représentations plus robustes et généralise mieux.

•C’est encore une forme de bruit contrôlé introduit dans l’apprentissage.

3. Annealing (souvent “learning rate annealing” ou “simulated annealing”)

•Vient du vocabulaire de la métallurgie : recuit (chauffer puis refroidir un métal pour obtenir une structure plus stable).

•En apprentissage automatique, cela désigne le fait de faire décroître progressivement un paramètre, typiquement le taux d’apprentissage (learning rate).

•Au début, un grand pas (exploration large), puis des pas plus petits (raffinement autour d’un minimum).

•Dans une autre variante, le recuit simulé, on introduit du bruit dans l’optimisation pour permettre au système d’échapper à des minima locaux, puis on réduit ce bruit au fil du temps.

👉 Donc, tous les trois (mini-batch, dropout, annealing) sont des sources de hasard volontaire introduites dans l’entraînement pour favoriser la robustesse, éviter le surapprentissage et améliorer la convergence.

(à suivre…)

Partager :

Une réponse à “Un modèle unique pour les esprits naturels et artificiels II. Cartographier le paysage énergétique mental”

  1. Avatar de ThomBillabong
    ThomBillabong

    Ca c’est top.
    Bravo Paul !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Contact

Contactez Paul Jorion

Commentaires récents

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx LLM pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés Singularité spéculation Thomas Piketty Ukraine Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta