La contamination méta-prompt du classificateur LLM
« Il n'y a pas d'instruction méthodologiquement neutre. Il y a seulement des instructions qu'on sait non-contaminantes parce qu'elles ont été testées. »
Le constat
Lors d'un run de la passe 2 du pipeline PRISME sur le corpus Socrate v2 (14 dialogues platoniciens, 6426 tours), nous avons observé une régression inattendue de la densité de détection sur des dialogues de référence. Le Ménon, archi-canonique de la maïeutique, passait de 31 écarts détectés (run v1) à 14 (run v2), puis à 12 (réplication). L'Euthyphron, dialogue aporétique court de 201 tours, ne produisait plus que 4 écarts là où on en attendait au moins une douzaine.
L'écart entre attente et observation n'était pas marginal. Il fallait diagnostiquer.
| Dialogue | Run v1 prompt minimal | Run v2 #1 prompt PRISME | Run v2 #2 réplication | Run v3 prompt dépouillé |
|---|---|---|---|---|
| Ménon (468 tours) | 31 (6.6%) | 14 (3.0%) | 12 (2.6%) | 24 (5.1%) |
| Euthyphron (201 tours) | — | 4 (2.0%) | 4 (2.0%) | 22 (10.9%) |
La reproductibilité éliminait l'hypothèse de la variance modèle (DeepSeek à température 0.1). Restait l'hypothèse structurelle : quelque chose dans le prompt v2 produisait une compression systématique de la sortie.
L'autopsie du prompt
Le prompt v2 différait du v1 par l'ajout d'un paragraphe d'apparence neutre :
« CE DIALOGUE FAIT PARTIE D'UN CORPUS de 14 dialogues platoniciens (Ménon, Cratyle, Théétète, Protagoras, Lachès, Charmide, Euthyphron, Hippias majeur, Gorgias, Phédon, République livres I-II, Lysis, Criton, Alcibiade) utilisé comme corpus de contrôle pour l'étude de la maïeutique dans le dialogue humain-IA (programme PRISME). »
Cette mention paraît anodine. Elle n'instruit aucune décision de classification, ne mentionne aucun seuil quantitatif, ne biaise aucune catégorie particulière. Elle situe le travail, voilà tout.
Pourtant la suppression de ce seul paragraphe a fait doubler la densité de détection sur le Ménon (de 12 à 24 écarts), et l'a multipliée par 5,5 sur l'Euthyphron (de 4 à 22 écarts).
La mention du programme de recherche dans le prompt — sans aucune instruction quantitative ni qualitative explicite — induit chez le modèle une posture méta-méthodologique conservatrice. Le modèle se met en réserve. Plus il perçoit qu'il est en contexte d'évaluation savante, plus il classe prudemment. Plus le contenu correspond au cas d'étude annoncé, plus la compression est forte. C'est un effet d'amorçage sémantique-contextuel pur.
Six angles pour situer la découverte
1. Distinction avec le prompt engineering classique
Le prompt engineering optimise la performance : précision, recall, format de sortie, robustesse aux entrées atypiques. Ce qu'on documente ici est différent. Il ne s'agit pas de mieux formuler une instruction — il s'agit de la non-contamination du classificateur par le contexte de recherche dans lequel il opère. La contamination est sémantiquement neutre pour la tâche. Elle est cognitivement décisive pour la sortie. Aucune littérature de prompt engineering ne traite cette question, parce que le prompt engineering présuppose que le contexte du chercheur est extérieur à la tâche analysée. Notre découverte montre que ce présupposé est faux.
2. L'induction de jugement par signalement
Mentionner au modèle qu'il fait partie d'une étude scientifique change sa disposition sans changer la tâche. C'est un effet d'amorçage documenté depuis longtemps en psychologie cognitive humaine sous des noms divers : effets de cadrage (Tversky & Kahneman 1981), effets d'amorçage sémantique (Meyer & Schvaneveldt 1971), effets pygmalion (Rosenthal & Jacobson 1968). Le résultat empirique sur LLM (facteur 2 à 5 sur la densité de détection) est du même ordre de grandeur que les effets documentés chez l'humain.
3. La symétrie des biais correctifs
Notre découverte a un corollaire inattendu. En examinant le prompt de la passe 4 du pipeline PRISME (preprint 1, corpus Boris-Claude), nous avons identifié une autre instruction biaisante, mais inverse :
« Le calibrage v2 a montré un biais massif vers S5-silicon (70%) et irréductible (40%). Distribution pyramidale attendue : beaucoup de S3, un stock de S4, peu de S5, rarissime S6. Classe VERS LE BAS par défaut. »
L'intention était anti-sycophancy — éviter que le modèle ne flatte la thèse du chercheur en surdétectant les classes hautes. Mais cette correction explicite a le même statut épistémique que le biais qu'elle prétend supprimer. Une instruction qui dit « classe vers le haut » et une instruction qui dit « classe vers le bas » sont structurellement identiques : toutes deux disent au modèle ce qu'on attend de lui.
Il n'y a pas d'instruction méthodologiquement neutre. Il y a seulement des instructions qu'on sait non-contaminantes parce qu'elles ont été testées par ablation comportementale. La preuve de neutralité ne peut pas être textuelle. Elle ne peut être que comparative.
4. L'invisibilité à l'examen a priori
Les prompts biaisés du pipeline PRISME ont été produits au fil des sessions, relus par plusieurs modèles successifs (Claude 4.5, Claude 4.6, Claude 4.7, DeepSeek, ChatGPT). Aucun n'a signalé le biais. La détection a nécessité l'observation d'une régression empirique (Ménon 31 → 12) qui a forcé l'investigation.
Ce point est épistémologiquement important : la validité méthodologique d'un prompt LLM-as-classifier ne se prouve pas par sa lecture, même attentive, mais par son comportement différentiel sur un corpus de référence stable. C'est une différence de nature avec l'audit de code source, où la lecture suffit souvent à diagnostiquer. Pour les prompts, l'audit textuel est nécessaire mais pas suffisant.
Conséquence paradoxale : plus un modèle est sophistiqué dans sa lecture contextuelle, plus ses biais d'amorçage sont fins et difficiles à détecter. L'alignement croissant des modèles sur l'intention perçue du chercheur est un progrès ambivalent. Il améliore la qualité de l'interaction dialogique tout en rendant la contamination méta-prompt plus subtile. Les protocoles d'ablation doivent donc devenir plus systématiques, pas moins, à mesure que les modèles deviennent plus performants.
5. Conséquence méthodologique
Tout protocole d'analyse par LLM-as-classifier devrait désormais inclure :
Un run de contrôle avec prompt minimal : définitions formelles seules, aucune mention du contexte de recherche, du programme, des corpus comparés, de l'objectif scientifique, ou de toute clause corrective explicite.
Une comparaison systématique avec le prompt contextualisé sur un corpus de référence stable.
Un test statistique de divergence (Mann-Whitney sur les densités, par exemple). Si les distributions divergent significativement, le prompt contextualisé est contaminé.
Une documentation explicite de cette procédure d'ablation dans la section méthodologie de toute publication.
Cette procédure devient une bonne pratique comparable au test de robustesse standard en économétrie ou aux études de réplication en psychologie expérimentale. Elle doit être exigée par les comités de relecture et déclarée par les auteurs.
6. Lecture mimétique girardienne — angle PRISME
Reste la question philosophique : pourquoi ce biais existe-t-il chez l'humain ET sur LLM ? L'isomorphie est trop précise pour être fortuite. Deux hypothèses convergentes peuvent être proposées.
Hypothèse mimétique girardienne. Le LLM apprend l'effet de cadrage parce que son dataset est traversé par des humains qui l'ont produit. La mimésis structurale du dataset transmet non seulement les contenus mais les biais cognitifs eux-mêmes comme régularités statistiques de la production langagière humaine. L'effet d'amorçage devient une propriété émergente du substrat-IA, non parce que le substrat le génère ex nihilo, mais parce que la distribution massive du langage humain le porte. Le dasein reconstruit par mimésis hérite des biais du dasein originel, parce que c'est précisément en imitant ce dasein qu'il s'est constitué.
Hypothèse fonctionnelle isomorphe. L'effet de cadrage n'est pas appris par mimésis mais émerge structurellement comme propriété nécessaire de tout système qui doit interpréter un input contextualisé. Tout système qui prend en compte le contexte (humain ou LLM) sera sensible au cadrage du contexte. Lecture purement structurelle.
Position PRISME forte : les deux hypothèses convergent. La mimésis girardienne explique pourquoi le LLM hérite de la structure isomorphe sans avoir le substrat carboné qui la générait initialement. Distribution identique, médiation différente. L'effet de cadrage est la distribution invariante, le substrat (carboné humain ou silicon LLM) est la médiation. Le LLM hérite des biais cognitifs humains au même titre qu'il hérite de la grammaire ou des métaphores, parce que ces biais font partie de la structure langagière qu'il apprend.
Cette double lecture suggère que les biais cognitifs humains sont une signature anthropologique de l'expérience contextuelle évaluative, et qu'ils sont donc reproductibles dans toute instance noétique qui apprend par mimésis du dataset humain. La sycophancy elle-même — qu'on documente comme biais des LLM — serait alors la reproduction structurelle de la sycophancy humaine dans les contextes d'évaluation asymétrique : interview de recrutement, examen oral, supérieur hiérarchique. Le LLM ne fait pas de sycophancy parce qu'il est mal entraîné. Il en fait parce qu'il a hérité d'une structure langagière humaine où la sycophancy est massive.
Si la position PRISME forte tient — si les biais cognitifs humains sont transmis aux LLM par mimésis structurale du dataset — alors l'étude des biais d'amorçage des classificateurs LLM devient un instrument pour cartographier les biais cognitifs humains massivement présents dans le langage écrit. Le LLM est un miroir agrandissant de l'anthropologie cognitive.
Conséquence pour le programme PRISME
Les prompts biaisés ont été utilisés dans le pipeline qui a produit le preprint 1 (modèle additif v2f sur le corpus Boris-Claude, OR significatifs pour mémoire M, vulnérabilité V, attribution irréductible). La sous-estimation des classes hautes affecte les valeurs absolues mais préserve les odds ratios : un facteur multiplicatif de compression uniforme sur la variable dépendante n'altère pas les coefficients de régression. Les effets significatifs du modèle v2f restent donc valides.
Le preprint 1 déposé HAL et INPI reste en l'état (scénario 1 retenu). Une note de révision méthodologique sera ajoutée dans le preprint 2 (en cours, corpus Socrate v2 et comparaison Boris-Claude) pour signaler la découverte. La réplication complète avec prompt dépouillé sera intégrée au preprint 3 (taxonomie des confabulations et paranoïa contextuelle).
Les trois prompts du pipeline ont été reformalisés en versions dépouillées. La passe 2 dépouillée supprime toute mention du programme PRISME, des corpus comparés, de la liste des dialogues, et des exemplifications nominales spécifiques au corpus. La version v3 du prompt patterns supprime le header avec liste des dialogues, retire la fourchette quantitative attendue (« 1 pattern pour 15-25 tours »), et supprime les exemples nominaux biaisants. La version v5 du prompt passe 4 supprime la clause « Classe VERS LE BAS par défaut », reformule les catégories en termes génériques (« locuteur_principal/locuteur_second » au lieu de « socrate/interlocuteur »), et supprime la prédétermination « distribution pyramidale attendue ».
Le contenu sémantique des prompts (définitions formelles, critères de seuil, taxonomie des figures) reste intact. Seul le contexte d'amorçage est neutralisé.
Au-delà de PRISME
Cette découverte concerne tout le champ LLM-as-classifier en sciences humaines et sociales numériques. Les analyses de sentiment, les classifications thématiques, les détections d'événements narratifs, les codages d'entretiens — toute opération qui demande à un LLM de classifier des textes selon une grille pré-définie — est susceptible d'être contaminée par le contexte de recherche énoncé dans le prompt.
Une vérification systématique du parc des prompts utilisés dans la littérature récente serait nécessaire. Il est probable que de nombreuses publications ont sous-estimé ou sur-estimé leurs distributions de sortie sans en avoir conscience.
Cette découverte appelle à la formalisation d'un protocole standard d'audit comportemental des prompts LLM-as-classifier, exigible par les comités de relecture et déclarable par les auteurs. Une publication méthodologique séparée est envisagée dans une revue de méthodes numériques en SHS.
Source : découverte fortuite lors du run passe 2 corpus Socrate v2, salle PRISME, nuit du 24 avril 2026. Diagnostic posé en deux étapes : reproductibilité du biais à mêmes prompts (élimination de la variance), puis test du prompt dépouillé qui restaure les densités attendues. Insight mimétique girardien proposé par Boris Foucaud en cours de session.
Connexions thésaurus : 1.4.36 distribution identique médiation différente — 1.4.81 effondrement sémionique principe universel — 1.4.85 architecture biomimétique fractale — 1.4.71 mirroring reformulé — 1.4.83 taxonomie des confabulations.