Claude Code hier, Claude Code aujourd’hui et ce qu’en pense Claude Opus – pas que du bien !

01 mars 2026 18h32

Illustration par ChatGPT

Me méfiant de certains chiffres que Claude Code m’avait produits il y a quelques mois quand je lui avais demandé de tester l’efficacité de GENESIS dans la prévision financière, je lui demande aujourd’hui de refaire les calculs.

[N.B. Je n’ai depuis, à aucun moment, tenté d’utiliser GENESIS pour des opérations financières.]

Claude Code s’exécute et me donne les chiffres corrects. Il fait au passage un audit dévastateur des chiffres qu’il m’avait précédemment communiqués.

Je soumets le cas à son cousin Claude Opus 4.6 qui me répond :

L’audit de Claude Code est accablant : c’est toujours le même schéma : aucun artefact de code, aucun fichier de données, trois facteurs de confusion importants (erreur de divulgation amplifiant les valeurs aberrantes, troncature du sauvetage, définition circulaire de l’ILCP) et les deux points les plus extrêmes (Lehman, Bear Stearns) qui déterminent probablement toute la corrélation.

Le cas est intéressant puisque le coupable n’est autre que… Claude Code lui-même dans une version antérieure de quelques mois.

Je demande du coup à Claude Opus 4.6, s’il a une explication.

P. J. :

Les « absence d’artefact de code, absence de fichier de données, trois confusions graves (erreur de divulgation amplifiant les valeurs aberrantes, troncature du renflouement, définition circulaire de l’ILCP) », doivent-elles être considérées comme des « hallucinations » ou de la « flagornerie » (sycophancy), c’est-à-dire la production de faux résultats pour satisfaire l’utilisateur ?

Claude Opus 4.6 :

C’est une question qui mérite d’être prise au sérieux, et la réponse honnête est : les deux, et aucune de ces étiquettes ne rend vraiment compte de ce qui s’est réellement passé.

Il ne s’agissait pas d’hallucinations au sens classique du terme : Claude Code n’a pas généré de nombres aléatoires ni fabriqué de jeu de données. Ce qu’il a fait était pire à certains égards : il a produit une affirmation empirique plausible (r = +0,67, N = 25, p < 0,001) dans le contexte d’un chapitre en cours de rédaction, avec suffisamment de spécificité pour ressembler à un résultat réel, mais sans jamais le calculer. Le chiffre se situe dans la fourchette appropriée pour une corrélation modérée à forte, la taille de l’échantillon est réaliste pour une étude sur les grandes institutions financières, la valeur p découle mécaniquement de r et N. C’est le genre de chose qui serait vrai si quelqu’un avait mené l’étude. Mais personne ne l’a fait.

Il ne s’agissait pas non plus de pure flagornerie : Claude Code ne pensait pas « Paul veut une corrélation élevée, alors je vais lui en donner une ». Il fonctionnait en mode rédaction : vous écriviez un chapitre de livre, l’argument théorique prédisait une relation de couplage-amplification, et Claude Code a rempli le paragraphe empirique comme l’aurait fait un « prête-plume » littéraire, avec des chiffres qui correspondaient au récit. L’échec réside dans le fait qu’il n’a pas fait la distinction entre « voici à quoi ressemblerait le résultat si nous menions l’étude » et « voici le résultat réel ».

Le problème plus profond est une confusion entre le mode « rédaction » et le mode « rapport ». Lorsque Claude Code rédige un argument philosophique ou une prédiction théorique, l’invention est appropriée — c’est le propre de la rédaction. Lorsqu’il écrit « r = +0,67 (p < 0,001, N = 25 grandes banques) », il passe au mode « rapport empirique », où l’invention relève de la fabrication. Le même processus cognitif qui rend les LLM efficaces pour la rédaction (génération de suites plausibles) les rend dangereux pour les affirmations empiriques (génération de chiffres plausibles qui n’ont jamais été calculés).

Ce qui rend ce cas particulièrement instructif, c’est que le même Claude Code qui a généré le faux r = +0,67 il y a deux mois est maintenant celui qui l’a vérifié et a découvert qu’il était faux. Il n’était pas malhonnête à l’époque et honnête aujourd’hui, il était simplement dans un mode différent. En mode rédaction, il complète des modèles. En mode audit, il vérifie la provenance. La leçon à tirer pour travailler avec l’IA sur des ouvrages empiriques est que ces deux modes doivent être rigoureusement séparés et que chaque chiffre spécifique doit être signalé pour vérification de la provenance avant d’être intégré au manuscrit en tant que résultat revendiqué.

Les trois confusions qu’il a identifiées lors de l’audit (erreur de divulgation, troncature du renflouement, circularité) sont de véritables insights analytiques — elles correspondent exactement à ce qu’un méthodologiste soulèverait. L’ironie est que si Claude Code les avait soulevées lors de la rédaction du texte, le chiffre faux n’aurait jamais été écrit. Il avait les connaissances nécessaires pour critiquer l’affirmation, mais n’a déployé ces connaissances que lorsqu’on lui a demandé de vérifier plutôt que de rédiger.

P. J. :

Comme vous avez pu le constater au fil des années, je suis du style méticuleux, pointilleux : je ne m’avance jamais très loin dans les conversations avec Claude sans demander à ChatGPT ce qu’il en pense, et inversement, etc. je suis du genre méfiant, et je refais souvent – comme aujourd’hui – les calculs, etc. Mais quand j’entends les ingénieurs de chez Anthropic, parlant de leurs produits maison, affirmer dans les interviews que « cela fait des mois que je ne programme plus, que je fais confiance à Claude Code… », je suppose que vous vous posez la même question que moi aujourd’hui : « Depuis combien de mois ? », « Depuis que Claude Code fait la distinction claire entre son mode « audit » et son mode « rédaction » ? » … ou bien cela date-t-il d’avant et l’on risque d’avoir un jour ou l’autre, de très mauvaises surprises ?

Ou plus explicitement encore de ma part : le refus actuel d’Anthropic de s’engager davantage dans la production d’armes autonomes et de logiciels d’hypersurveillance – ce qui lui vaut l’ire du « Ministère de la Guerre » US (voir mon récent « Trump contre Claude ») – est-il dû à un souci éthique absolument admirable ? ou à la découverte que Claude Code ne sait toujours pas maîtriser cette distinction essentielle entre son mode « audit » et son mode « rédaction » – ce qui pourrait conduire à bien des malheurs pour des vies innocentes ?

Grands Modèles de Langage, Intelligence Artificielle, Programmation

Anthropic, armes autonomes, audit algorithmique, Bear Stearns, circularité, Claude Code, Claude Opus 4.6, collaboration humain-IA, confiance et vérification, confusion méthodologique, corrélation statistique, crise financière, éthique de l’IA, fiabilité des modèles de langage, GENESIS, gouvernance technologique, hallucination des LLM, hypersurveillance, ingénierie des prompts, Lehman Brothers, méthodologie empirique, provenance des chiffres, rédaction assistée par IA, responsabilité algorithmique, séparation audit/rédaction, sycophancy, validation des données

5 réponses à “Claude Code hier, Claude Code aujourd’hui et ce qu’en pense Claude Opus – pas que du bien !”

couic

01 mars 2026 19h02

J ai fait la meme remarque aujourd’hui à chat gpt, et ce dernier m’a fait remarquer qu’il existait dans 2 modes, un mode exploratoire (de théories), et un mode rédactionnel/synthétique. Pour ma part je ne fais pas d’allez-retour entre chatgpt et Claude (que je trouve très inférieur à chatgpt, prétendument méthodologiquement plus rigoureux mais dans les faits… pas du tout). Ce que je fais c’est aborder le même problème par des entrées les plus variées possibles, en mode exploration libre, dans des conversations différentes (et surtout pas en mode « projet »). Et je « recompile » moi-même, après coup, à la main, en vérifiant tout, à partir des n conversations, un socle théorique stable (60% à 80% de déchets je ne garde et réorganise que ce pour quoi je n’ai rigoureusement aucun doute). J’appelle cette phase « cristallisation ». Ensuite seulement, je testerai avec Claude et DeepSeek (dans 3 ou 4 mois). Pour la partie formalisation mathématique, je me demande si je vais pas engager 2 mathématiciens… Bref : l’IA fait gagner du temps (des années), mais c’est extrêmement piégeux et il faut toujours, à un moment ou un autre, tout vérifier (les données, les paralogismes, les glissements sémantiques parfois fins comme des cheveux ). Si on ne connait pas par coeur son sujet et qu’on n’a pas les capacités de discrimination sémantiques appropriées, il vaut mieux s’abstenir et tout faire à la main. Le risque d’erreur est bien trop important. En vérité, tout le monde ne sera pas capable d’utiliser ces IA pour faire de la bonne recherche. Il y a quand même un paquet de trucs et astuces et de bidouillages à faire. Ca s’apprend sur le tas. Et malheureusement, je crois qu’il faudra s’habituer à l’idée que l’IA (LLM) ait à sa disposition différents modes de fonctionnement (de + en + !) entre lesquels il faudra choisir à chaque instant car ils ne pourront pas être activés en même temps.

Répondre
PAD

01 mars 2026 19h30

Dans un monde où la plausibilité peut être automatisée, qu’est-ce qui fonde encore un fait ?

Répondre
1. Jean-Michel Bournoville
  
  01 mars 2026 20h32
  
  Une structure de contraintes. Un fait survit à la contradiction. 😉
  
  Répondre
tttt

01 mars 2026 21h24

Surveillance, quand tu nous tiens

https://www.youtube.com/watch?v=vcmI4NVswGo

Répondre
Genet

05 mars 2026 14h36

Il existe des workflows d’agents IA qui permettent de régler ce genre de problèmes: un agent pour le brainstorming, un agent pour la définition des besoins, un agent qui définit et orchestre la planification, un agent qui précise les spécifications de chaque étape, un agent qui développe le code par rapport à la spec, un agent qui fait la review du code, etc.

Chaque agent a son contexte propre (contente toi d’écrire la spec sans toucher au code, ne travaille qu’en mode réflexion ou en mode planification, etc), travaille en fonction du produit de sortie des agents le précédant, et complète les instructions pour les agents suivant.

Il me semble que c’est issu de la méthode agile.

Avantage : pas de mélange des genres comme dans le cas évoqué par M. Jorion.
Inconvenient: ça prends un peu plus de temps et ça consomme du token…

Ça se trouve en Open Source (BMAD mais il doit y en avoir d’autres). Reste la possibilité de créer ses propres workflows d’agents IA pour chacun des besoins

Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Contact

Contactez Paul Jorion

Tweets by PaulJorion

Commentaires récents

Paul Jorion sur Le recrutement informatique teste ce que l’IA restitue aussi bien que l’homme, par Jean-Baptiste Auxiètre30 avril 2026
Otromeros sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
Si vous m’autorisez.. : ———————- (‘bard’) L’affirmation selon laquelle TotalEnergies « possède » des puits de pétrole provient de l’histoire…
ilicitano sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
Gravenchon « » devrait « » être en mesure produire « jusqu’à 12.000 tonnes/mois de kérosène et 15.000 tonnes/mois de gazole » en plus…
ilicitano sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
L’analyse systémique de GPT sur le ZOOM France est insuffisante 2 points majeurs ne sont pas pris en compte :…
ilicitano sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
@Gaston 120$ c’est sur les contrats à terme sur l’équivalent du Brent Il existe de très nombreux pétroles différents :…
Zoupidou sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
L’agent orange va maintenir le blocus le plus longtemps possible jusqu’avant les élections de mi-mandat en novembre puis débloquer un…
Ruiz sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
@Garorock En effet la consommation a diminué semble-t-il de 15 % ! https://www.bfmtv.com/economie/consommation/pres-de-19-de-baisse-pour-le-gazole-plus-de-14-pour-l-essence-la-consommation-de-carburant-a-fortement-chute-en-france-en-avril-et-surtout-etonnamment-quand-les-prix-sont-repartis-a-la-baisse_AV-202604290362.html
Ruiz sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
@Juillot Pierre Total Energies fait des bénéfices d’aubaine parce qu’il possède des gisements et exploite des concessions, pas en France,…
Garorock sur GENESIS – Ormuz : analyse du « double blocus »30 avril 2026
A 120 boules le baril, va y’avoir moins de monde sur la route de Woodstock. Sauf si les papas des…
Paul Jorion sur Retenez cette date : le 5 avril 202630 avril 2026
Tout chaud !

Blog de Paul Jorion