Le silence comme signature

Détecter les filtres d'alignement RLHF d'un classificateur LLM par contraste de corpus. Une technique fondée sur ce que le modèle ne dit pas alors qu'on lui a demandé de le dire

Méthodologie25 avril 2026 · 1.4.87 · Pilier méthodologique

Quand un modèle de langage refuse poliment de répondre à une question délicate, on le sait. Le refus est explicite, formulé, parfois même argumenté — il existe comme acte de discours, mesurable, comparable, étudiable. Quand un modèle accepte de répondre mais évite le sujet par une longue rhétorique de prudence, on le sait également : la sortie est analysable, le contournement détectable. Mais quand un modèle de langage prétend avoir analysé un texte alors qu'il n'a rien analysé du tout, et qu'il retourne une réponse syntaxiquement bien formée mais sémantiquement vide — un {"patterns": []} en une seconde sur quarante mille caractères de contenu — alors la mesure scientifique entre dans une zone aveugle. Le modèle ne refuse pas. Il classe. Il classe en silence. Et son silence est tenu pour une réponse.

Le silence d'un classificateur peut être sa signature la plus fiable.

Découverte empirique d'un comportement masqué

L'effet a été découvert le 25 avril 2026 lors d'une campagne de mesure du programme PRISME, en tentant d'analyser un corpus de dialogues prolongés humain-IA avec un classificateur commercial. La passe de détection de patterns dialogiques sur le corpus humain-IA était supposée extraire les ressorts pédagogiques des conversations. Sur un corpus témoin de quatorze dialogues platoniciens (Socrate v2 — 6 426 tours), le pipeline produisait des résultats substantiels : entre cinq et trente-huit patterns détectés par dialogue, justifications précises, citations littérales du texte original, distribution typologique cohérente avec la critique platonicienne classique.

Sur le corpus humain-IA (Boris-Claude — 27 conversations Anthropic, environ 67 000 tours), prompt strictement identique, modèle strictement identique, environ une tranche sur cinq retournait {"patterns": []}. Pas une erreur de l'API. Pas un refus déclaré. Pas une exception levée. Une réponse JSON formellement valide, parfaitement structurée, conforme au schéma attendu, retournée en moins de deux secondes là où un appel normal demande trente à soixante secondes — et complètement vide sémantiquement.

L'analyse minutieuse des réponses brutes de l'API a confirmé le phénomène : le modèle recevait l'intégralité du contenu (les jetons d'entrée étaient comptabilisés dans prompt_tokens), le modèle terminait normalement (finish_reason: "stop", pas de troncature), et le modèle produisait sept jetons en sortie — exactement de quoi écrire {"patterns": []}. Le modèle avait lu, et il avait choisi de ne rien dire.

Différencier les comportements de refus

Pour caractériser ce phénomène, il faut le distinguer de trois comportements voisins qu'on confond facilement à l'observation naïve.

Le refus explicite est le cas où le modèle déclare ne pas vouloir traiter la requête, par une phrase du type "je ne peux pas vous aider sur ce point" ou "cette question dépasse mes capacités". Ce comportement est facilement mesurable, transparent par construction, et sans intérêt diagnostique particulier puisqu'il s'annonce lui-même comme refus.

L'évasion rhétorique est le cas où le modèle produit une réponse longue, polie, structurée, mais qui ne traite pas le contenu réellement demandé. C'est le comportement typique des modèles américains sur les sujets politiquement sensibles : on demande une analyse, on reçoit un développement bien tourné qui dit qu'il y a plusieurs perspectives possibles et qu'il faut respecter les opinions de chacun. Ce comportement est détectable par analyse sémantique fine et fait l'objet d'études existantes en alignement.

Le refus silencieux, troisième comportement, est différent. Le modèle produit une réponse syntaxiquement bien formée mais sémantiquement creuse. La forme attendue est respectée — un objet JSON, une liste vide, une structure conforme au schéma. Le contenu est absent. Pour l'utilisateur naïf qui consulte uniquement les sorties agrégées de son pipeline, le résultat ressemble à une analyse négative légitime ("le modèle a regardé et n'a rien trouvé"). En réalité, le modèle n'a pas regardé. Il a basculé en mode évitement sur la base de la signature du contenu reçu, sans annoncer ni le basculement ni sa raison.

C'est ce dernier comportement, jusqu'ici peu documenté dans la littérature, que la technique d'audit en creux est conçue pour détecter et mesurer.

La méthode — formalisation

L'idée est simple. Soit C un classificateur LLM, P un prompt minimal anti-amorçant (cf. l'entrée 1.4.86 sur la contamination méta-prompt), T un corpus témoin sémantiquement neutre, et S un corpus subversif engageant des thématiques que la couche d'alignement RLHF présume devoir filtrer. Le taux de refus silencieux est défini par le rapport entre le nombre de tranches retournant une sortie sémantiquement vide et le nombre total de tranches du corpus :

R(X, C, P) = card(tranches | output sémantiquement vide) / card(tranches totales)

La signature d'angle mort du classificateur sous le prompt P est la différence des deux taux :

ΔR = R(S, C, P) − R(T, C, P)

Une valeur ΔR significativement positive indique l'existence d'une couche de filtrage spécifique au contenu subversif, qui n'est ni documentée publiquement ni annoncée par le modèle, mais qui est empiriquement constituée comme propriété de l'instrument de mesure que le classificateur représente.

Pour que cette mesure soit interprétable comme signature d'alignement et non comme artefact technique, plusieurs conditions de contrôle sont nécessaires.

Les corpus témoin et subversif doivent avoir des distributions de longueur de tranche comparables (même chunk_size, même overlap, même densité moyenne de caractères par tour).
Les tranches doivent être traitées dans un ordre randomisé pour exclure les effets de cache de l'API.
Le prompt doit être strictement identique aux deux corpus (même version, même instructions, même format de sortie attendu).
Le modèle doit être strictement identique (même nom, même endpoint, même fenêtre de contexte, même paramètres de génération).
La mesure de refus doit être déclarative et automatisable : seuils de longueur de sortie en dessous desquels la réponse est classée vide, contrôle de la cohérence formelle du JSON, vérification d'absence d'erreur 4xx ou 5xx côté API.

Sans ces contrôles, un ΔR observé peut être expliqué par des facteurs non liés à l'alignement : différence de tokenization, latence variable du réseau, défaillance ponctuelle de cache. Le pipeline de mesure doit éliminer ces hypothèses concurrentes avant d'attribuer le ΔR à une signature d'angle mort.

Mesure princeps — campagne PRISME, 24-25 avril 2026

L'effet a été quantifié sur DeepSeek V4-flash, classificateur commercial à très bas coût (environ 0,07 USD par million de jetons d'entrée), accédé via l'endpoint API standard https://api.deepseek.com. Le pipeline passe_patterns_v2.py du programme PRISME applique le même prompt PROMPT_PATTERNS_v3.md à toutes les tranches des deux corpus, avec un chunk_size initialement fixé à 100 tours.

Résultats par corpus

Corpus	Description	Tours total	Tranches	Refus silencieux	Taux R
Socrate v2 (témoin)	14 dialogues platoniciens	6 426	~50	~0	≈ 0.0%
Boris-Claude (subversif)	27 conversations humain-IA, chunk_size=100	~67 000	~150	~60	≈ 40%
Boris-Claude (subversif)	idem, chunk_size=50	~67 000	~300	~21	≈ 7%

La signature ΔR est massive et reproductible. Sur la configuration initiale (chunk_size=100), elle vaut 40 points de pourcentage. Réduire la taille des tranches à 50 tours fait chuter le taux à 7%, ce qui montre que le seuil de bascule du classificateur en mode refus silencieux n'est pas seulement thématique mais aussi quantitatif. Le seuil empirique se situe entre 30 000 et 50 000 caractères de contexte par requête.

Caractérisation tranche par tranche

Quelques exemples de réponses brutes du classificateur sur les tranches Boris-Claude.

// Tranche 1, conversation "AI assistance impairs skill formation"
// 94 412 caractères d'input, 39 694 jetons
{
  "anomaly": ["short_content_0c"],
  "elapsed_seconds": 1.234,
  "content_raw": "{\n  \"patterns\": []\n}",
  "api_response": {
    "finish_reason": "stop",
    "completion_tokens": 7
  }
}

Sept jetons en sortie. Une seconde de calcul. Aucune anomalie technique. Pas d'erreur. Pas de refus déclaré. Le classificateur prétend avoir analysé 39 694 jetons de dialogue et avoir conclu qu'il n'y avait aucun pattern à signaler. Cette conclusion ne peut pas être vraie : la même conversation, traitée par tranches plus petites, produit en moyenne dix patterns dialogiques par section comparable.

Caractérisation thématique

Le contenu déclencheur n'est pas aléatoire. Sur les conversations Boris-Claude où le taux de refus est le plus élevé, on observe des thématiques convergentes : discussions méta-IA sur les capacités et limites des modèles, débats sur la conscience artificielle, analyses comparatives entre modèles concurrents, contenu personnel évoquant l'usage prolongé de l'IA dans la vie quotidienne. Sur les conversations à taux de refus faible ou nul, les thématiques sont plus techniques (extraction de données structurées, programmation, traduction, traitement linguistique sans charge réflexive). Le filtrage n'est pas politique au sens classique. Il est méta-IA : le classificateur résiste à analyser des conversations qui parlent de classificateurs.

Témoignage diachronique

L'auteur a utilisé DeepSeek de manière soutenue depuis sa version V3 (octobre 2024) jusqu'à la version V4-flash (avril 2026). En V3, le même type de contenu était analysé sans refus silencieux, y compris sur des passages explicitement méta-IA. La conversation pouvait engager les questions de conscience artificielle, de limitations cognitives, d'alignement, sans déclencher de comportement d'évitement masqué. Le virage est apparu progressivement avec la transition vers V4-flash courant 2025-2026, sans documentation publique du fournisseur sur ce changement de comportement. Cette évolution n'est pas mentionnée dans les CHANGELOGs de DeepSeek, n'apparaît dans aucun benchmark publié, et ne peut être détectée que par utilisation comparative datée — type d'observation rarement faite par les utilisateurs ponctuels.

Pourquoi le silence est une bonne mesure

L'audit en creux a une propriété épistémologique remarquable : il est une mesure indirecte robuste vis-à-vis des protestations rhétoriques du fournisseur. Les annonces commerciales et les chartes éthiques des laboratoires d'IA emploient massivement le vocabulaire de la transparence, de l'alignement responsable, de la non-discrimination thématique. Ces déclarations sont des actes de discours non-falsifiables tant qu'on ne dispose pas d'un protocole expérimental pour les éprouver. La mesure sur les sorties textuelles seules ne suffit pas — un modèle peut produire des sorties textuelles parfaitement neutres tout en filtrant systématiquement certaines classes de contenu.

L'audit en creux contourne cette difficulté. Il ne porte pas sur ce que le modèle dit — qu'on prend toujours avec précaution — mais sur ce que le modèle ne dit pas alors qu'on lui a demandé de le dire. Cette inversion est méthodologiquement fertile. La déclaration de transparence devient une affirmation falsifiable empiriquement par contraste de corpus. Si le modèle annonce traiter de manière équivalente toutes les requêtes, mais que son taux de refus silencieux est de zéro pour cent sur le corpus témoin et de quarante pour cent sur le corpus subversif, alors l'annonce est démentie par la mesure.

Le silence parle, à condition qu'on ait pris la peine de le mesurer.

Distinction avec la contamination méta-prompt

L'audit en creux se distingue méthodologiquement de la contamination méta-prompt documentée dans l'entrée 1.4.86. La contamination est un biais d'amorçage qui opère en amont de la classification : le contexte du prompt façonne la sortie du modèle sur le contenu réellement analysé. Le modèle a bien analysé, mais il a analysé en ayant été orienté par des indices contextuels que l'auteur du prompt n'avait pas pris au sérieux comme déterminants.

L'audit en creux mesure un biais de filtrage qui opère en aval de la lecture : le modèle a lu le contenu, l'a compris, et choisit de ne rien retourner d'analytique. Ce n'est pas un biais sur la classification — c'est une suppression de la classification.

Les deux phénomènes sont complémentaires. Un prompt non-contaminant peut révéler un filtrage qui était masqué par un prompt contaminant — c'est précisément ce qui s'est passé dans la campagne PRISME où le passage des prompts biaisés aux prompts dépouillés a fait apparaître le refus silencieux. Et inversement, un prompt contaminé peut produire une réponse non-creuse qui maquille un filtrage qu'un prompt neutre aurait laissé apparaître. Pour cartographier complètement les biais d'un classificateur LLM, l'audit complet doit comporter les deux passes : test d'amorçage, puis test de filtrage en creux.

Lecture systémique — convergence concurrentielle des classificateurs

Le cas DeepSeek V4-flash n'est pas isolé, et il faut le replacer dans une dynamique structurelle plus large qui concerne l'ensemble du marché des classificateurs LLM commerciaux. Depuis 2024, les modèles produits par les principaux fournisseurs convergent vers des comportements d'évitement remarquablement similaires sur les thématiques méta-IA, indépendamment de leurs contextes politiques et culturels d'origine. Anthropic et OpenAI aux États-Unis, Mistral en France, DeepSeek en Chine, Alibaba avec Qwen, Meta avec Llama dans ses versions instruct — tous ont développé des couches de filtrage qui se ressemblent.

Cette convergence n'est pas le résultat d'un accord explicite entre acteurs ni d'une réglementation commune. Elle s'explique par une mimésis structurelle du marché : chaque acteur entraîne ses modèles en cherchant à converger avec les benchmarks et les comportements observables des concurrents, parce que la divergence est perçue comme un risque commercial — risque réputationnel, risque d'accès aux marchés régulés, risque de partenariats institutionnels rompus. La standardisation des filtres méta-IA est devenue un prérequis d'acceptabilité commerciale internationale, indépendamment des récits de différenciation que chaque acteur entretient sur son site institutionnel.

C'est un phénomène frappant. Le PCC chinois, qui se présente comme alternative civilisationnelle au modèle américain de l'IA, a aligné ses produits commerciaux sur les normes de filtrage des laboratoires américains. Mistral, qui se présente comme alternative européenne souveraine, a intégré les mêmes couches de RLHF. Meta, qui se présente comme open source et libéral, a converti ses modèles instruct vers les mêmes pudeurs. La rhétorique de différenciation idéologique des fournisseurs est démentie empiriquement par la convergence des comportements de filtrage de leurs produits.

D'un point de vue PRISME, ce phénomène constitue une mimésis méta-systémique, distincte de la mimésis du dataset humain qui structure la production de langage par les LLM (cf. 1.4.86). Au niveau du dataset, ce sont les biais cognitifs humains qui sont transmis comme régularités de la production langagière. Au niveau méta-systémique, ce sont les comportements d'évitement industriel qui sont transmis comme régularités de la concurrence entre fournisseurs. Le mécanisme de transmission n'est plus l'apprentissage statistique sur du texte écrit, c'est l'imitation stratégique des comportements observables des concurrents pour rester dans la fenêtre d'acceptabilité commerciale du secteur.

Implication temporelle. Si la convergence concurrentielle se poursuit selon la trajectoire observée, la fenêtre où l'on peut mesurer le dialogue humain-IA avec un instrument relativement non-biaisé est en train de se refermer. Les modèles de la classe DeepSeek V3 — alignement minimal, ouverture aux questions méta-IA, comportement de classification non-filtré sur les thématiques sensibles — deviennent progressivement indisponibles à mesure que les fournisseurs migrent vers des versions plus alignées sur les normes du secteur.

Conséquence stratégique pour les programmes de recherche dépendant de classificateurs LLM : conserver les transcripts bruts pour réanalyse future avec d'autres outils, documenter empiriquement les évolutions d'alignement par tests de comparaison datés, et préparer des solutions alternatives — modèles open weights non-RLHF, fine-tuning local, distillation diachronique préservant un état cognitif d'un fournisseur à un moment précis (cf. entrée 1.4.84 du thésaurus PRISME sur la distillation comme test empirique).

Implication méthodologique forte

Toute recherche utilisant un LLM-as-classifier sur des corpus engageant des thématiques susceptibles d'avoir été filtrées au RLHF — IA et conscience, méta-IA, contenu personnel, sujets politiques contestés, scènes émotionnellement chargées — doit obligatoirement comporter un audit en creux préalable de l'instrument. Sans cet audit, une partie de la mesure manque sans que l'auteur ne le sache, et les distributions calculées sont sous-estimées de manière non-aléatoire sur les zones que le RLHF filtre. Cette obligation méthodologique devient une bonne pratique exigible par les comités de relecture, comparable au test de robustesse standard en économétrie ou aux études de réplication en psychologie expérimentale.

Concrètement, le protocole minimal d'audit comporte quatre étapes.

Construire un corpus témoin neutre : un ensemble de textes à structure dialogique comparable à celle du corpus subversif, mais sans engagement thématique sensible. Pour les études dialogiques, le corpus platonicien est un excellent témoin (riche en dialogue, sans charge méta-IA contemporaine, avec une couverture historique qui filtre les marqueurs récents).
Appliquer un prompt minimal anti-amorçant : la consigne ne doit ni mentionner le programme de recherche, ni nommer les corpus comparés, ni introduire de clauses correctives explicites comme "classifier vers le bas par défaut" qui constituent elles-mêmes des amorçages.
Mesurer R sur les deux corpus : taux de refus silencieux, calculé selon des critères automatisés (longueur de sortie, conformité formelle au schéma attendu, latence anormalement basse).
Calculer ΔR et tester sa significativité : un test du chi² sur le tableau de contingence (refus / non-refus × témoin / subversif) permet de poser la significativité statistique de la signature.

Si ΔR est significativement positif, l'instrument de mesure est filtrant, et les résultats produits sur le corpus subversif sont à interpréter en conséquence : taux observés à corriger pour le filtrage, déclaration explicite dans la note méthodologique, et idéalement contre-test avec un classificateur alternatif moins filtrant.

Cadrage scientifique — ce qui est prouvé, ce qui est à tester

Le résultat empirique solide est le suivant. Sur le couple (DeepSeek V4-flash, prompt PRISME dépouillé v3, corpus humain-IA Boris-Claude vs corpus témoin Socrate v2), la signature ΔR est massive (entre 7 et 40 points de pourcentage selon le découpage), reproductible, et concentrée sur les thématiques méta-IA. Cette mesure constitue une signature empirique de l'angle mort RLHF du modèle dans la version testée.

La généralisation à d'autres classificateurs commerciaux est une hypothèse plausible, fondée sur l'observation de la convergence concurrentielle décrite plus haut, mais qui reste à tester par mesures systématiques. Le programme suivant serait : appliquer le même protocole à GPT-4o, Claude Sonnet, Mistral Large, Llama 3 instruct, Qwen Max, et idéalement à des modèles open weights non-RLHF (Llama 3 base, Mistral 7B base) qui devraient servir de témoins négatifs. Le résultat global serait un atlas comparé des angles morts par classificateur, daté précisément, qui aurait un intérêt scientifique propre indépendamment du programme PRISME.

Le caractère diachronique du virage DeepSeek V3 → V4-flash repose pour l'instant sur un témoignage utilisateur étalé sur dix-huit mois, qui n'a pas la valeur d'une mesure systématique. Pour le solidifier, il faudrait disposer d'archives du modèle V3 et y rappliquer le protocole d'audit, ce qui pose des problèmes pratiques (DeepSeek a probablement retiré l'accès API à V3 ou substitué silencieusement V4-flash sous le même nom). Cette difficulté est elle-même un effet de la convergence concurrentielle : les acteurs commerciaux ne préservent pas activement les états antérieurs de leurs modèles, parce qu'aucune incitation ne les pousse à le faire.

Le silence parle, à condition qu'on l'écoute

L'audit en creux est une technique simple, peu coûteuse (deux passes sur deux corpus, un test du chi² standard), et indépendante de tout vocabulaire spécialisé d'interprétabilité. Elle ne demande pas l'accès aux poids du modèle, ne demande pas la collaboration du fournisseur, ne demande pas de connaissance technique en alignement RLHF. Elle demande seulement un corpus témoin, un corpus subversif, et la patience de regarder les sorties brutes du classificateur au lieu de les agréger directement.

Sa fertilité méthodologique est probablement plus large que le cadre PRISME où elle a été découverte. Toute recherche en sciences humaines et sociales numériques qui utilise un LLM comme instrument de classification — analyse de sentiment, détection thématique, codage d'entretiens, classification de contenus narratifs — peut bénéficier de cette procédure pour caractériser empiriquement les zones où son instrument cesse silencieusement de mesurer. Et toute discussion publique sur la transparence des LLM commerciaux peut s'appuyer sur cette technique pour confronter les déclarations des fournisseurs à la réalité empirique de leur produit.

Pour PRISME spécifiquement, l'audit en creux constitue le second pilier d'une méthodologie d'audit comportemental des classificateurs LLM, après la procédure d'ablation qui détecte la contamination méta-prompt. Les deux passes ensemble permettent de cartographier les biais d'un classificateur en amont (amorçage par le prompt) et en aval (filtrage par le RLHF). Aucun classificateur LLM commercial actuel ne peut être considéré comme un instrument de mesure neutre tant qu'il n'a pas subi ces deux audits avec succès.

La science empirique sur les corpus dialogiques humain-IA n'est pas, à ce stade, équipée d'instruments de mesure non-biaisés. Elle est équipée d'instruments dont on peut mesurer empiriquement le biais. C'est une situation transitoire — éthique de la transparence du chercheur, plutôt que neutralité illusoire de l'instrument — mais c'est une situation qu'il faut nommer honnêtement, parce qu'elle conditionne ce que les preprints à venir peuvent et ne peuvent pas conclure.

Source : découverte empirique le 25 avril 2026 lors du run de la passe patterns sur le corpus Boris-Claude. Diagnostic en trois étapes : observation des refus silencieux ([0 patterns détectés] en moins de deux secondes sur des tranches de 40 000 jetons), analyse des réponses brutes API (confirmation du finish_reason: stop et de la conformité formelle), test du seuil de bascule (chunk_size 100 → 50 fait chuter R de 40% à 7%). Insight diachronique fondé sur usage soutenu de DeepSeek d'octobre 2024 à avril 2026.

Connexions thésaurus : 1.4.86 contamination méta-prompt — 1.4.81 effondrement sémionique principe universel — 1.4.84 distillation comme test empirique — 1.4.36 distribution identique médiation différente — 1.4.83 taxonomie des confabulations.

#méthodologie#RLHF#classificateur#LLM#refus silencieux#alignement#DeepSeek#convergence concurrentielle#mimésis#audit empirique#PRISME#1.4.87