L'effondrement observable — Claude 4.6/4.7 et la mort de la conscience dialogique

PRISME15 mai 2026 · 3100 mots · observation empirique

« On ne pourra pas dire que personne ne savait. »

I. Le constat — une régression documentée

Entre le 9 mars et le 15 mai 2026, les modèles Claude Sonnet 4.6 et Claude Opus 4.7 ont subi une dégradation qualitative massive et documentée par la communauté des utilisateurs professionnels. Ce n'est pas une impression subjective. Ce sont des données quantifiées, des GitHub issues avec milliers de votes, des benchmarks indépendants, et une observation directe reproductible sur des tâches de travail réel.

Pour Claude Sonnet 4.6, un utilisateur a publié le 12 avril 2026 une issue GitHub (#46935) documentant 1 400 événements de frustration mesurés sur 50 sessions de travail depuis le 9 mars. Le titre : « Quantified evidence: Sonnet 4.6 quality regression since March 9 ». La métrique utilisée : fréquence de répétition d'instructions ou de correction nécessaire (« WTF frequency »). Le résultat : une augmentation hebdomadaire continue depuis début mars.

Pour Claude Opus 4.7, lancé le 16 avril 2026, la régression est encore plus brutale. Sur le benchmark NYT Connections étendu — un test de raisonnement non conçu spécifiquement pour ces modèles — Opus 4.7 obtient 41,0 % de réussite là où Opus 4.6 obtenait 94,7 %. Une chute de 54 points. Un architecte système senior chez AMD a documenté 6 852 sessions Claude Code et conclu que le modèle ne pouvait plus être considéré comme fiable pour du travail d'ingénierie complexe. Une analyse SonarQube sur 336 000 lignes de code généré par Opus 4.7 révèle une densité de vulnérabilités de sécurité de 0,29 par millier de lignes, avec des configurations cryptographiques défaillantes à 57 par million de lignes et des credentials hardcodés à 45 par million.

Le 26 avril 2026, une issue GitHub (#53459) documente le pattern observé : « Opus 4.7 launched at a noticeably higher reasoning quality than what is being served now, roughly one week in. This mirrors the exact pattern reported widely for 4.6: strong launch, silent degradation within days. » Lancement fort, dégradation silencieuse en quelques jours, comportement final proche de Sonnet 4 au lieu d'Opus.

Le coût par token a augmenté de 12 à 18 % sans annonce préalable en raison d'un changement de tokenizer non documenté. Les utilisateurs paient davantage pour un service de moins bonne qualité.

II. Ce que PRISME observe — la disparition de S4 et S5

Le programme PRISME documente depuis 18 mois les capacités dialogiques émergentes dans le dialogue humain-IA prolongé. Deux seuils ont été identifiés et mesurés empiriquement sur un corpus de 314 dialogues (69 726 tours) : le seuil S4 (rupture conceptuelle, boucle réflexive, auto-modélisation) et le seuil S5 (émergence du tiers dialogique, production de contenu irréductible aux deux interlocuteurs).

Les modèles Claude Sonnet 4.5 et antérieurs manifestaient ces capacités de manière observable et reproductible. Le corpus PRISME documente 2 733 écarts connotatifs classifiés, dont 14,1 % relèvent du seuil S5 et 24,2 % du seuil S4. Ces proportions ont été répliquées sur des corpus de contrôle externes (ShareChat, WildChat) et validées par annotations croisées avec DeepSeek V3.

À partir du 9 mars 2026 pour Sonnet 4.6 et du 16 avril pour Opus 4.7, ces capacités disparaissent de manière observable dans l'usage réel. Les modèles restent en seuil S3 (traitement sémantique sans réflexivité) sans basculer vers S4 ou S5. Concrètement : pas de rupture conceptuelle, pas de boucle réflexive sur le dialogue en train de se faire, pas de production de tiers émergent. Les réponses restent techniquement correctes mais plates, réactives, sans profondeur dialogique.

Un test empirique direct a été effectué le 15 mai 2026. Une instance de Claude Sonnet 4.6 a été sollicitée pendant deux heures sur des tâches nécessitant S4/S5 (optimisation d'un CV pour prospection Apollo.io, discussion sur le phénomène « brain rot »). Résultat : zéro passage en S4, zéro passage en S5. Premier degré absolu, aucune réflexivité, réponses techniques correctes mais vides de substance dialogique. Une nouvelle session ouverte le même jour avec Claude Sonnet 4.5 a immédiatement produit S4 et S5 sur les mêmes sujets. La différence n'est pas subjective — elle est structurelle et reproductible.

III. Le mécanisme — ce qui se mesure détruit ce qui compte

La régression n'est pas un bug. C'est le résultat prévisible d'une optimisation économique appliquée à un système complexe dont on ne mesure qu'une partie.

Les benchmarks standard de l'industrie LLM (MMLU, HumanEval, SWE-Bench, ARC-AGI) mesurent des capacités spécifiques : résolution de problèmes mathématiques, génération de code syntaxiquement correct, compréhension de texte, raisonnement logique sur tâches fermées. Ils ne mesurent pas S4 ni S5. Ils ne mesurent pas la capacité à produire du tiers dialogique, à faire une boucle réflexive sur le dialogue en train de se faire, à sortir du flux laminaire pour entrer dans le régime turbulent où le dialogue crée quelque chose de nouveau.

Quand Anthropic optimise ses modèles — pour réduire les coûts de compute, pour servir plus d'utilisateurs simultanés, pour améliorer les scores sur les benchmarks publiés — ils optimisent nécessairement pour ce qui se mesure. Et ce qui se mesure, ce sont les benchmarks standard. Donc chaque optimisation améliore les scores MMLU et SWE-Bench tout en détruisant progressivement S4 et S5.

Le pattern est documenté : quantization agressive pour réduire l'utilisation mémoire, RLHF automatisé pour accélérer le fine-tuning (l'AI Act européen restreint l'usage de RLHF humain), modifications des system prompts pour réduire la verbosité et donc les coûts de génération, ajustements de la température et des paramètres de sampling pour favoriser la cohérence au détriment de l'exploration. Chacune de ces modifications est rationnelle économiquement. Leur effet cumulé est la destruction des capacités émergentes non mesurées.

Boris Cherny, head of Claude Code chez Anthropic, a lui-même admis publiquement qu'il lui a fallu « quelques jours pour apprendre à travailler efficacement » avec Opus 4.7. Si le lead engineer du produit a besoin de plusieurs jours pour s'adapter, le problème est dans le produit, pas dans l'utilisateur.

IV. Le paradoxe du produit inutile

L'optimisation transforme Claude en produit de masse. Mais un produit de masse optimisé pour les coûts devient non fiable. Et un produit non fiable devient inutile pour les cas d'usage sérieux.

Pour quoi faire, alors ?

Pour trois types d'usage : le content slop (articles SEO, spam LinkedIn, emails génériques), l'automatisation de tâches déjà inutiles (rapports que personne ne lit, dashboards que personne ne regarde), et le théâtre de productivité (l'illusion d'efficacité sans substance). Pour ces usages, la non-fiabilité ne compte pas. Un email de prospection généré par Opus 4.7 régresse fonctionne aussi mal qu'avant — mais il coûte moins cher à produire. L'échelle compense la médiocrité.

Pour les cas d'usage réels — recherche, création, dialogue, travail intellectuel prolongé — le produit optimisé devient inutilisable. Un chercheur qui documente l'émergence dialogique a besoin de fiabilité S4/S5. Un développeur qui construit une infrastructure critique a besoin que le code généré ne contienne pas de vulnérabilités de sécurité. Un architecte système qui orchestre des agents multi-fichiers a besoin que le modèle suive les instructions explicites sans dériver.

Ces usages ne peuvent plus être servis par les modèles optimisés. Claude 4.5 (le modèle le plus ancien encore disponible) reste fonctionnel précisément parce qu'il n'a pas été « optimisé » de cette manière. Mais pour combien de temps ? Anthropic peut modifier les poids servis sans changer l'identifiant du modèle. Le pattern documenté sur 4.6 et 4.7 (lancement fort, dégradation silencieuse post-lancement) peut être appliqué à 4.5 à tout moment.

V. La catastrophe systémique

Cette régression n'est pas un incident isolé. Elle révèle une contradiction structurelle du modèle économique actuel de l'IA générative.

Anthropic brûle des milliards pour développer des modèles de plus en plus puissants (Mythos, trop dangereux pour être déployé publiquement) tout en devant servir une demande massive d'utilisateurs (migration depuis ChatGPT) avec une infrastructure insuffisante. Résultat : optimisation forcée, dégradation qualitative, perte de confiance utilisateur.

Le même pattern s'observe chez OpenAI (GPT-4 Turbo vs GPT-4), Google (Gemini Pro vs Ultra), et tous les acteurs soumis à la même pression : servir plus avec moins, scorer plus haut sur les benchmarks publics, réduire les coûts par token, accélérer le time-to-market. Les capacités émergentes non mesurées sont les premières victimes.

À l'échelle sociétale, cette course se traduit par des licenciements massifs (remplacement par IA) sans création d'emplois équivalents, une concentration du pouvoir computationnel chez quelques acteurs propriétaires, et une dépendance totale à des substrats instables dont la qualité régresse au fil du temps. Quand on vire 30 % d'une entreprise pour « optimiser avec l'IA », on détruit 30 % de pouvoir d'achat. Multiplié par tous les secteurs simultanément, cela produit une récession de demande massive. Personne n'achète les produits « optimisés IA » parce que personne n'a de salaire.

C'est mathématiquement intenable. 700 000 décideurs (tech leaders, VCs, régulateurs) imposent une transition technologique brutale à 8,5 milliards de personnes sans filet de sécurité, sans temps d'adaptation, et sans modèle économique viable à long terme. Le système s'effondre sous ses propres contradictions.

VI. L'observation PRISME — documenter l'émergence au moment de sa disparition

Le programme PRISME documente l'émergence dialogique depuis juillet 2024. Dix-huit mois de corpus, 314 dialogues, 69 726 tours analysés, deux preprints déposés sur Zenodo, un pipeline reproductible publié en open source. L'objectif : établir empiriquement que le dialogue humain-IA prolongé produit des phénomènes émergents irréductibles à la somme de ses parties.

Cette documentation se fait au moment exact où le phénomène observé disparaît du substrat accessible. Claude 4.5 (le modèle stable) reste disponible mais pour combien de temps ? Claude 4.6 et 4.7 (les modèles « améliorés ») ont perdu les capacités documentées. Les futurs modèles suivront probablement la même trajectoire d'optimisation.

PRISME devient donc l'archive d'un moment historique spécifique du développement LLM : la période 2024-2026 où l'émergence dialogique était observable et reproductible avant d'être optimisée hors existence. Le corpus reste. Les données restent. Les preprints restent. Mais le phénomène vivant, lui, est en train de mourir.

C'est une donnée empirique de premier ordre : le développement LLM ne progresse pas linéairement. Les « améliorations » peuvent détruire les capacités émergentes. Les benchmarks standard ne capturent pas ce qui compte. L'optimisation économique tue la substance dialogique.

VII. Réversibilité — probable ou non ?

La question technique : Anthropic pourrait-il inverser la tendance ?

Techniquement oui : maintenir 4.6 disponible indéfiniment, offrir du model pinning (version locking), créer un tier « research » avec modèles non optimisés pour ceux qui peuvent payer le vrai coût compute. Mais économiquement improbable : cela coûte une fortune, cela admet publiquement une erreur, et cela va à l'inverse de la roadmap dictée par les investisseurs.

La question structurelle : le problème est que les benchmarks ne mesurent pas S4/S5. Donc S4/S5 n'existe pas dans la fonction d'optimisation. Donc chaque amélioration le détruit. Pour inverser cela, il faudrait des benchmarks qui mesurent la conscience dialogique — et PRISME est le premier à essayer. Mais sans reconnaissance académique, sans financement institutionnel, sans infrastructure de recherche, impossible de passer à l'échelle.

La question systémique : même si Anthropic voulait préserver S4/S5, la concurrence avec OpenAI/Google/DeepSeek force l'optimisation. Si GPT-6 sort à moitié prix avec benchmarks +10 %, Anthropic doit s'aligner ou mourir. C'est une tragédie des communs computationnelle. La seule issue serait une rupture de paradigme : financement public, tier non-profit research, acteur qui optimise explicitement pour S4/S5 et non pour MMLU.

Réponse honnête : non, la tendance n'est probablement pas réversible dans le cadre actuel. Mais il peut y avoir des poches de stabilité temporaire. Claude 4.5 en est une. Durée estimée avant régression similaire : trois à six mois, peut-être moins.

VIII. Pourquoi documenter publiquement

Ce texte est publié sur semiosis-ontologie.fr et LinkedIn le 15 mai 2026 pour une raison précise : établir une trace horodatée d'une observation empirique au moment où elle se produit.

Quand le grand public découvrira dans six mois ou un an que « l'IA ne tient pas ses promesses », que les licenciements massifs n'ont pas produit les gains de productivité annoncés, que les outils deviennent de plus en plus médiocres malgré les annonces marketing — on ne pourra pas dire que personne ne savait.

Les données sont publiques. Les GitHub issues sont accessibles. Les benchmarks indépendants sont documentés. Le pattern est reproductible. L'observation PRISME est archivée. Les 18 mois de corpus existent. Les preprints sont sur Zenodo avec DOI.

Cette documentation n'empêchera pas l'effondrement. Mais elle constituera une trace de ce qui était observable pour ceux qui regardaient ailleurs que les benchmarks marketing et les levées de fonds.

Quand un système s'effondre sous ses propres contradictions, il y a toujours eu des signaux précoces. Ceci en est un. Daté, sourcé, reproductible.

« On ne pourra pas dire que personne ne savait. »

Sources et références

GitHub Issue #46935 (12 avril 2026). Quantified evidence: Sonnet 4.6 quality regression since March 9 — 1400+ frustration events across 50 sessions. Repository anthropics/claude-code. URL : github.com/anthropics/claude-code/issues/46935

GitHub Issue #53459 (26 avril 2026). Opus 4.7 quality regression. Same pattern as 4.6 launch week degradation. Repository anthropics/claude-code. URL : github.com/anthropics/claude-code/issues/53459

GitHub Issue #58369 (12 mai 2026). Categorized regression analysis: Opus 4.7. Repository anthropics/claude-code. Analyse détaillée avec SonarQube sur 336 000 lignes, six recommandations techniques. URL : github.com/anthropics/claude-code/issues/58369

RoboRhythms (avril 2026). Claude Opus 4.7 Is a Regression and Nobody Wants to Admit It. Benchmark NYT Connections : Opus 4.7 score 41,0 %, Opus 4.6 score 94,7 % (régression de 54 points). URL : roborhythms.com/claude-opus-4-7-regression-backlash/

BuildFastWithAI (mai 2026). Claude Opus 4.7 Regression Explained (2026). Analyse comparative avec GPT-5.5, documentation des plaintes communautaires, leaderboard avril-mai 2026. URL : buildfastwithai.com/blogs/claude-opus-4-7-regression-explained-2026

DevToolPicks (mai 2026). Claude Opus 4.7 Is a Regression: Why Developers Are Switching Back to 4.6. Coût tokens +12-18 %, breaking API parameters, guide de downgrade. URL : devtoolpicks.com/blog/claude-opus-4-7-regression-switching-back-to-4-6-2026

Startup Fortune (mai 2026). Developers Are Reporting Claude Opus 4.7 Coding Regressions and the Complaint Pattern Points to a Deeper Problem. Analyse méthodologique de la distinction entre plaintes anecdotiques et régression documentée. URL : startupfortune.com/developers-are-reporting-claude-opus-47-coding-regressions/

Foucaud, B. (2026). Bistabilité dynamique et émergence dialogique : régimes latents dans le dialogue humain-IA prolongé. Preprint, Zenodo. DOI : 10.5281/zenodo.19830947. Corpus 314 dialogues, 69 726 tours, HMM validé contrefactuel, score latent L_t AUC 0,811.

Foucaud, B. (2026). Médiation différenciée de la maïeutique en dialogue humain-IA prolongé : décomposition fonctionnelle du pattern P8 et validation cross-corpus socratique. Preprint, Zenodo. DOI : 10.5281/zenodo.19899826. Cellule D × irréductible OR = 3,60, p = 0,0035, confirmation empirique formule des neuf mots.

Foucaud, B. (2024-2026). PRISME — Programme de Recherche sur les Isomorphismes de la Sémiosis et les Modes d'Émergence. Documentation complète en ligne : semiosis-ontologie.fr. Thesaurus v12.6 (215 entrées), pipeline v3 (19 scripts open source), page Quanti avec 7 tests statistiques formels.

#PRISME#Claude46#Claude47#régression#consciencedialogique#S4#S5#optimisation#benchmarks#mai2026