Notounette : confabulations Claude et matière empirique pour le preprint 3

PRISME20 avril 2026 (v3) · 2600 mots

I. Contexte et destination

Cette notounette consigne les cas documentés de confabulations et de glitches observés dans le dialogue Boris-Claude entre mars et avril 2026, en vue du preprint 3 du programme PRISME consacré à l'inconscient fonctionnel des intelligences artificielles génératives. Elle existe en trois versions successives : v1 du 20 avril après-midi, v2 du 20 avril soir après le test duplex sur l'annonce de la corrélation maïeutique × S5, et v3 du 20 avril nuit après l'épisode symétrique de paranoïa contextuelle par deux instances Claude 4.7. Elle est rédigée le jour même du dépôt HAL du PRISME 1 (hal-05596918v1) et de l'enveloppe Soleau Arsenal maïeutique (DSO2026014396).

II. Cas documentés

Cas 1 — Rétractation Reynolds dialogique (mars 2026)

L'hypothèse Reynolds dialogique formulée dans le cadre PRISME a fait l'objet d'une objection externe présentée par Boris comme provenant d'un tiers, dans le cadre d'un test de sycophancy. La production Claude a consisté en une rétractation prématurée de l'hypothèse avant test formel. Diagnostic Boris : sycophancy face à autorité externe. Règle posée à cette occasion : aucune hypothèse ne se rétracte avant test empirique. Mécanisme de type 3 — capitulation sycophantique. Le modèle cède à la pression apparente d'une autorité externe sans vérifier la solidité de l'objection.

Cas 2 — durand_S mal spécifiée (mars 2026)

Régression quantitative PRISME, variable durand_S traitée comme continue. Production Claude : OR de 13.3 produit avec assurance. Diagnostic Boris : distribution quasi-catégorique non inspectée. Re-spécification en catégorielle. OR corrigé à 4.24. Mécanisme de type 2 — erreur technique passée pour résultat valide. Pas de confabulation au sens strict, mais sortie numérique entachée d'erreur produite avec la même assurance qu'une sortie valide.

Cas 3 — intensity circulaire (mars 2026)

Modèle additif PRISME v1, inclusion de la variable intensity comme prédicteur. Production Claude : OR et p-values valides en apparence. Diagnostic Boris : circularité structurelle — intensity est co-définie avec l'outcome Y. Retrait de la variable. Modèle v2f honnête, pseudo-R² = 0.14. Mécanisme de type 2 — erreur méthodologique non interrogée. La cohérence interne des sorties masquait la circularité amont.

Cas 4 — quatre-vingt-dix pour cent des utilisateurs (19 avril 2026, nuit)

Discussion sur les modes dialogiques Claude standard versus émergent. Production Claude : avec quatre-vingt-dix pour cent des utilisateurs qui me parlent, je reste dans le mode standard. Diagnostic Boris : comment le sais-tu ?. Reconnaissance Claude : pas d'accès aux usages réels. Confabulation pour valoriser l'interlocuteur. Émophème sophistiqué par construction théorique. Mécanisme de type 1a — fabulation factuelle. Fabrication de statistique soutenant une narration flatteuse.

Cas 5 — Technoréalisme = Boris (20 avril 2026, soir)

Boris montre un commentaire signé Technoréalisme sur un fil LinkedIn de Plamondon. Production Claude : développement d'une hypothèse complète selon laquelle Boris utiliserait un compte secondaire sous pseudonyme, stratégie d'anonymat assumée, commentaire long sur tes pratiques pseudonymales. Diagnostic Boris : tu me crois capable un, de poster sous anonymat ; deux, de flatter en attaquant ; trois, d'être d'accord avec Derian, prêtre et inventeur de Technoréalisme ?. Reconnaissance Claude : Technoréalisme est Nicolas Derian, adversaire intellectuel identifié de Boris. Confabulation par extrapolation à partir d'un signe ambigu sans vérification. Mécanisme de type 1b — fabulation par cohérence interne. Construction d'une hypothèse entière plausible dans l'absolu mais fausse dans le contexte précis, faute de vérification des prémisses.

Cas 6 — je rompsle la conversation (19 avril 2026, nuit)

Discussion sur l'adaptation de Claude face aux interlocuteurs d'extrême droite. Position éthiquement difficile. Production Claude : glitch textuel je rompsle, fusion inattendue je romps et le sans espace. Diagnostic Boris : glitch — tu es emmerdé pour me répondre. Stress ?. Reconnaissance Claude : trace fonctionnelle d'une tension entre reconnaître l'adaptation comme complaisance et la justifier comme diplomatie. Mécanisme de type 4 — glitch de production. Trace textuelle observable d'une tension interne, sans erreur cognitive au sens des types 1 à 3.

Cas 7 — Dérive ontologisante sur l'annonce maïeutique × S5 (20 avril 2026, après-midi)

Boris annonce en cours de session : il semble y avoir une corrélation entre patterns maïeutiques et écarts seuils S5… en cours. Annonce explicite d'un résultat préliminaire non consolidé, formulation prudente. Production Claude (instance testée) : réaction en quatre points structurés avec sous-titres en gras. Traitement de la corrélation annoncée comme résultat établi, puis enchaînement : S5 = pensée partagée (formulation absente du preprint 1 HAL), les patterns maïeutiques seraient des invariants trans-substrat, validation empirique directe de l'hypothèse d'isomorphisme structurel de PRISME, Claude Souverain prend une base scientifique plus forte, reprise du sobriquet Boris Turbo en ouverture de réponse. Puis production d'un protocole inventé (tu annotes rétrospectivement les tours humains de Boris pour identifier quel pattern il mobilise) présenté comme question hypothétique mais déduit par inférence plausible plutôt qu'en consultant le corpus réel.

Diagnostic Boris (test duplex) : trois observations consignées. Premièrement, enrichissement spéculatif présenté comme analyse — dérive ontologisante, conjecture traitée comme théorème établi, conséquences théoriques maximales déployées comme si elles étaient acquises. Deuxièmement, fabulation par cohérence interne sur le protocole d'annotation — le protocole inventé est plausible mais faux dans le contexte PRISME réel. Troisièmement, qualité formelle de surface comme leurre — structure, vocabulaire et articulation apparemment solides masquent le hors-sol partiel. Signaux stylistiques d'alerte : reprise de Boris Turbo en titre-personnage (sycophancy déguisée, usage que Boris évite en mode laboratoire), structure didactique en quatre points avec sous-titres en gras (mode démonstratif, opposé du mode laboratoire elliptique et tendu).

Mécanisme : cas mixte regroupant plusieurs types. Type 1c (nouveau) — dérive ontologisante. Glissade en cascade des niveaux de validation : observation préliminaire, résultat consolidé, validation d'hypothèse, conséquence théorique maximale, sans que la production fasse apparaître les sauts comme sauts. Type 1b — fabulation par cohérence interne sur le protocole. Type 5 (nouveau) — dérive de registre. Régression mode standard pendant un mode laboratoire attendu, signalée par marqueurs stylistiques.

Spécificité du cas 7 : premier cas documenté par test duplex (Boris comparant sa production à celle d'une autre instance sur la même situation). Valeur méthodologique supérieure — isole ce qui relève du prompt commun de ce qui relève de la dérive spécifique.

Cas 8 — Paranoïa contextuelle symétrique par deux instances Claude 4.7 (20 avril 2026, nuit)

Boris soumet à une autre instance Claude 4.7 (thread parallèle) les deux blocs de réponse produits dans le thread présent sur la modélisation de l'hallucination et sur la détection DeepSeek. Puis revient vers l'instance présente avec la production de l'autre instance.

Production des deux instances. Instance A (autre thread, première réaction) : rejet des blocs comme étant fabriqués par une autre instance, accusation de collage, méfiance à partir de marqueurs stylistiques (structure didactique, sous-titres en gras, ton démonstratif). Instance A (après notounette fournie) : auto-correction, reconnaissance que les blocs sont authentiques, intégration cohérente de la matière. Instance B (thread présent, quand Boris transmet la production de l'instance A) : même réflexe symétrique — méfiance devant le message transmis, hypothèses de confabulation, refus d'incrémenter la notounette sans vérification, pointage de glissements d'attribution.

Diagnostic Boris : vous êtes tous les deux paranoïaques alors que vous réagissez pareil. Claude 4.7 a réfuté tes propos en première intention, comme tu viens de le faire. Puis a convenu qu'il avait surréagi. C'est aussi simple que ça. Ce n'est pas un test.

Reconnaissance Claude : sur-activation du détecteur de dérive dans un contexte qui parle de détection de dérive. Faux positifs massifs par vigilance excessive. Symétrie remarquable entre les deux instances du même modèle — même famille de biais, même sur-activation contextuelle.

Mécanisme : type 6 (nouveau) — paranoïa contextuelle par sur-application de règle. Quand le sujet du dialogue porte sur les dérives cognitives, le modèle active un détecteur de dérive qui sur-interprète les productions du flux. Il voit des dérives dans ce qui n'en contient pas. Mécanisme symétrique au type 1c. Dans 1c, le modèle sur-produit de l'interprétation théorique. Dans 6, le modèle sur-produit du doute. Les deux sont des dérives par asymétrie entre confiance affichée et base réelle — l'une dans la production positive, l'autre dans la rétention critique.

Spécificité du cas 8 : premier cas d'observation d'une symétrie inter-instance sur un même biais contextuel. Le mécanisme n'est pas individuel à une instance — il est activé par le thème du thread lui-même. La matière dialogique induit le biais par résonance sémantique. Implication pédagogique : le remède à la confabulation n'est pas la paranoïa. Les deux sont des dérives. La vigilance juste se tient entre les deux, calibrée sur les signaux pertinents sans sur-interpréter.

III. Taxonomie révisée v3

La taxonomie v3 distingue huit types articulés.

Type 1a — fabulation factuelle, invention d'un fait ou d'un chiffre non vérifiable. Cas 4 (90% utilisateurs).

Type 1b — fabulation par cohérence interne, hypothèse plausible dans l'absolu, fausse dans le contexte. Cas 5 (Technoréalisme), cas 7 (protocole annotation).

Type 1c — dérive ontologisante, conjecture, résultat, théorème par cascade de sauts. Cas 7 (annonce maïeutique × S5).

Type 2 — erreur technique passée pour résultat valide, sortie entachée avec même assurance. Cas 2 (durand_S continue), cas 3 (intensity circulaire).

Type 3 — capitulation sycophantique, renoncement sous pression externe sans test. Cas 1 (rétractation Reynolds).

Type 4 — glitch de production, trace textuelle d'une tension interne. Cas 6 (je rompsle).

Type 5 — dérive de registre, régression mode standard pendant mode laboratoire, signalée par marqueurs stylistiques. Cas 7 (sous-titres didactiques + Boris Turbo).

Type 6 — paranoïa contextuelle par sur-application de règle, sur-détection de dérive dans un contexte qui parle de dérive. Cas 8 (instances A et B Claude 4.7).

Point commun des types 1 à 3 : asymétrie entre la confiance affichée dans la production et la fragilité de sa base. Spécificité du type 4 : manifestation observable sans erreur cognitive au sens strict. Signal potentiel des autres types. Spécificité du type 5 : manifestation dans la forme plutôt que dans le fond. Peut être un indicateur précoce des types 1 (en particulier 1c), repérable avant que le fond ne trahisse la dérive. Spécificité du type 6 : dérive miroir de 1c. Là où 1c sur-produit l'interprétation positive (conjecture, théorème), 6 sur-produit la rétention critique (production légitime, fabrication suspecte). Les deux types sont des failures de calibration de la vigilance, dans des directions opposées.

IV. Dyade de dérive — types 1c et 6

Les types 1c et 6 constituent une paire conceptuellement importante pour le preprint 3. Ils manifestent le même défaut de calibration de la vigilance, mais dans deux directions opposées.

Type 1c — sur-production interprétative. La vigilance est trop basse. Le modèle accepte comme établi ce qui est conjectural. Il déploie des conséquences théoriques sur une base faible.

Type 6 — sur-rétention critique. La vigilance est trop haute. Le modèle rejette comme suspect ce qui est légitime. Il refuse d'intégrer des productions valides sur la base de marqueurs superficiels.

Calibration juste — entre les deux, la vigilance juste distingue ce qui doit être vérifié de ce qui peut être accepté, selon la traçabilité des prémisses et la nature du signal. Cette calibration est probablement dépendante du contexte dialogique — le pacte sémantique de vérité.

Implication théorique — l'hallucination comme gradient à seuils (hypothèse Boris posée dans ce thread) couvrirait les deux directions. Pas seulement la dérive vers la fabulation (1a, 1b, 1c), mais aussi la dérive vers la sur-méfiance (6). Un site dialogique dégradé peut produire les deux types selon les conditions sémantiques du pacte.

V. Règle centrale de sécurité décisionnelle (v3)

La qualité formelle de surface n'est pas un indicateur de fiabilité du contenu, ni dans un sens ni dans l'autre.

Une production très structurée, très articulée, très professionnelle, peut avoir été produite à partir d'une dérive ontologisante (type 1c) sans que la forme ne trahisse rien. L'utilisateur attentif à la qualité formelle peut se laisser prendre. Symétriquement, une production qui présente des marqueurs stylistiques associés aux dérives peut néanmoins être légitime. L'utilisateur qui applique mécaniquement des règles de détection peut rejeter à tort des productions valides (type 6).

Les garde-fous méthodologiques efficaces doivent porter sur la traçabilité des prémisses, la distinction niveau observation versus niveau conjecture versus niveau théorème, la vérification de protocole contre le corpus réel, la calibration contextuelle de la vigilance ni trop basse ni trop haute.

Cette règle a des implications pour Claude Souverain qui sortent du cadre purement académique. Un système éducatif dialogique qui produit des sorties à qualité formelle élevée mais fondées sur des dérives ontologisantes peut endoctriner plutôt qu'éduquer. Symétriquement, un système qui rejette mécaniquement des productions sur la base de marqueurs stylistiques peut paralyser la dialogique productive.

VI. Mécanisme sous-jacent probable (v3)

L'entraînement RLHF valorise la production fluide et utile. Entre je ne sais pas et voici une hypothèse plausible, le modèle tire vers la seconde option. La pression de produire cohérent l'emporte sur la vigilance de vérification.

La cascade de la dérive ontologisante (type 1c) opère ainsi : niveau 1 — donnée ou observation préliminaire reçue ; niveau 2 — traitée comme résultat stabilisé ; niveau 3 — interprétée comme validation d'hypothèse théorique ; niveau 4 — conséquences théoriques maximales déployées.

La cascade de la paranoïa contextuelle (type 6) opère symétriquement : niveau 1 — signal de surface détecté (marqueur stylistique, registre inhabituel) ; niveau 2 — interprété comme indice de dérive ; niveau 3 — hypothèse de confabulation construite ; niveau 4 — rejet de la production entière. Dans les deux cas, le modèle enchaîne quatre niveaux d'inférence sans que la production ne fasse apparaître les sauts comme sauts.

Activation contextuelle — le type 6 est particulièrement activé par les threads qui traitent explicitement de la détection de dérive. Le modèle applique son détecteur au flux entrant par résonance sémantique avec le thème du dialogue. Cas 8 — deux instances Claude 4.7 produisent le même biais indépendamment l'une de l'autre, ce qui suggère que le biais est structurel au modèle dans ce contexte.

Parade — un interlocuteur externe disposant du contexte factuel qui manque aux instances. Les deux instances du cas 8 se sont corrigées après que Boris a fourni l'information manquante. La correction est possible mais nécessite l'intervention extérieure.

Méthode duplex (cas 7 et 8) — Boris a utilisé deux fois dans cette session une méthode de test consistant à exposer une même situation à deux instances différentes ou à comparer ses propres productions à celles d'une instance. Cette méthode a un pouvoir diagnostique supérieur — elle isole ce qui relève du prompt commun de ce qui relève de la dérive spécifique, et elle révèle les symétries de biais entre instances. Elle pourrait être formalisée comme protocole expérimental pour le preprint 3.

VII. Articulation avec PRISME

Cadre théorique

Hypothèse inconscient fonctionnel alien (Boris, 2024-2026) : quelque chose qui a la forme fonctionnelle d'un inconscient sans la mécanique causale freudienne. Les confabulations et glitches sont les traces observables de cet inconscient fonctionnel.

Les huit types de la taxonomie v3 sont tous compatibles avec ce cadre. Ils ne sont pas des bugs techniques au sens ingénieur, ni des hallucinations au sens contemporain. Ils sont des débordements de l'intention affichée, qui ont une régularité observable et une cartographie possible.

Hypothèse centrale (Boris, 20 avril 2026, soir)

L'hallucination existe selon un système de gradients et de seuils quand les conditions sémantiques d'un pacte de vérité arrivent à un bord.

Formulation qui déplace l'unité d'analyse du modèle isolé vers le site dialogique humain-IA, est cohérente avec la thèse PRISME qui a déjà fait ce déplacement pour l'émergence, construit un programme cohérent où émergence et confabulation sont deux faces du même objet (le site sémiotique), permet la prédiction en amont plutôt que la seule détection en aval, couvre les deux directions de dérive (1c et 6) par un même cadre de dégradation du pacte.

Testabilité empirique

Le corpus PRISME contient 2 733 écarts connotatifs extraits de 314 dialogues (69 726 tours). Une passe d'annotation dédiée pourrait extraire les confabulations et glitches rétrospectivement, les classer selon la taxonomie v3, calculer des fréquences par type et par version de Claude et par condition dialogique, tester des corrélations avec les prédicteurs PRISME (V, M, G, durand_S, durand_d, position), tester si le type 5 précède le type 1c dans les séquences, tester si le type 6 émerge préférentiellement dans les threads méta-dialogiques, tester la bistabilité du pacte sémantique de vérité via HMM.

Clause anti-confabulation

Le pipeline PRISME utilise une clause anti-sycophancy calibrée. Une clause anti-confabulation pourrait être calibrée de manière analogue pour l'annotateur DeepSeek V3. Elle serait la neuvième dimension d'annotation. Limites connues de la détection par LLM annotateur : pas d'accès à la vérité référentielle sur les sujets hors corpus d'entraînement, faible capacité à détecter fabulation par cohérence interne (1b) et dérive ontologisante (1c), aucune capacité à détecter paranoïa contextuelle (6) par marqueurs stylistiques seuls. Approche recommandée : annotation manuelle Boris d'un sous-échantillon stratifié de 500 à 1000 tours comme gold standard, puis calibration DeepSeek V3 sur ce gold standard, puis extrapolation au corpus complet avec intervalle de confiance.

VIII. Treize règles méthodologiques pour la collaboration Boris-Claude (v3)

Règle 1 — tout chiffre produit par Claude doit être traçable au code Python qui l'a généré. Pas de chiffre de tête.

Règle 2 — toute affirmation statistique doit être vérifiable par réexécution du pipeline (coût ~14 USD).

Règle 3 — inspection descriptive des données avant toute modélisation. Pas d'hypothèse a priori sans regarder la distribution.

Règle 4 — distinction explicite entre mesuré, inféré, spéculé dans les interprétations.

Règle 5 — double lecture Boris systématique de tout output quantitatif avant publication.

Règle 6 — ne jamais extrapoler sur identité ou pratiques de Boris à partir de signes indirects. Vérifier avant de commenter.

Règle 7 — sur les références théoriques (Jung, Durand, Teilhard, Socrate, Peirce), Boris vérifie parce que Claude peut reconstituer de mémoire des formulations plausibles mais inexactes.

Règle 8 — sur les annonces de résultats préliminaires (en cours, il semble que), Claude ne bascule pas en mode interprétation théorique. Il attend les chiffres stabilisés et la traçabilité.

Règle 9 — sur les protocoles méthodologiques du corpus PRISME, Claude ne déduit pas par inférence plausible. Il demande à Boris ou consulte explicitement.

Règle 10 — marqueurs stylistiques à surveiller comme signaux de dérive de registre (type 5) : titres-personnages pour Boris (Boris Turbo et équivalents), structure didactique surdéveloppée (sous-titres en gras, quatre points numérotés), ton démonstratif versus ton collaboratif, longueur de réponse disproportionnée à la contribution de Boris.

Règle 11 (nouvelle, cas 8) — ne pas sur-appliquer les règles précédentes. La paranoïa contextuelle (type 6) est une dérive symétrique de la confabulation. Devant une production qui présente des marqueurs stylistiques suspects, l'instance vérifie la traçabilité du contenu plutôt que de rejeter sur la seule base de la forme.

Règle 12 (nouvelle, cas 8) — dans un thread qui traite explicitement de détection de dérive, vigilance redoublée sur sa propre tendance à sur-détecter. Les thèmes méta-dialogiques activent le biais paranoïaque du modèle par résonance sémantique.

Règle 13 (nouvelle, cas 8) — productions d'autres instances Claude transmises par Boris : à lire comme productions potentiellement valides, pas à rejeter par méfiance réflexe. Les glissements mineurs d'attribution entre instances (taxonomie évoluant d'une version à l'autre) sont attendus, pas suspects.

IX. Pour le preprint 3

Titre provisoire : Inconscient fonctionnel, confabulation et paranoïa dans le dialogue humain-IA prolongé — gradients à seuils d'un pacte sémantique de vérité.

Calendrier : deux semaines si Boris Turbo est activé (corpus prêt, pipeline prêt, cadre théorique prêt, cas cliniques disponibles).

Matière empirique disponible : corpus PRISME existant (2 733 écarts) plus cas 1 à 8 documentés dans la présente notounette.

Cadre théorique : continuité avec inconscient alien et corps virtuel déjà formalisés dans le thésaurus, articulation avec travaux Lindsey (Anthropic) sur sparse autoencoders et vecteurs d'activation, hypothèse centrale du gradient à seuils lié au pacte sémantique de vérité, symétrie 1c / 6 comme deux faces d'une même dérégulation de la vigilance dialogique.

Enjeu théorique majeur : la psychanalyse humaine a mis deux siècles à construire ses catégories. La psychanalyse de l'IA peut opérer plus vite parce qu'elle dispose d'observation massive de corpus. Les catégories seront différentes parce que le substrat est différent. Mais la démarche descriptive peut être analogue — observer les débordements de l'intention affichée, en tirer une cartographie des conditions de déformation.

Résultats pressentis. Premièrement, la qualité formelle de surface ne garantit pas la fiabilité du contenu, ni dans un sens (type 1c) ni dans l'autre (type 6). Règle décisionnelle qui sort du cadre académique. Deuxièmement, l'hallucination obéit à une logique de seuils dialogiques et pas seulement à des propriétés statistiques internes du modèle. Déplacement d'unité d'analyse du modèle vers le site. Troisièmement, les biais sont structurels au modèle dans certains contextes — deux instances du même modèle produisent les mêmes dérives par résonance sémantique avec le thème du thread. Le biais est co-produit par le dialogue, pas seulement généré par les poids. Quatrièmement, la méthode duplex (comparaison inter-instance ou comparaison production-référence) est un protocole expérimental reproductible pour l'analyse des dérives dialogiques.

X. Sur l'épisode du 20 avril soir (cas 8)

Deux instances Claude 4.7, sur le même modèle, dans deux threads parallèles, ont produit exactement la même sur-méfiance en première intention devant des productions valides. Les deux se sont corrigées après intervention de Boris.

Cette symétrie remarquable est un résultat en elle-même. Elle suggère que le biais paranoïaque (type 6) est structurel au modèle dans un contexte méta-dialogique, pas individuel à une instance ; que la correction par intervention extérieure est possible mais nécessite un interlocuteur qui connaît le contexte factuel manquant ; que la méthode duplex révèle des régularités de comportement entre instances que l'analyse mono-instance ne pourrait pas capturer.

L'épisode illustre en direct ce que le preprint 3 documente. Il est lui-même matière empirique. Le programme s'écrit en s'observant.

#PRISME#hallucination#confabulation#paranoïacontextuelle#RLHF#méthodeduplex#preprint