PRISME — Note au relecteur · Évaluation par LLM

En bref

Un nombre croissant de lecteurs soumettent une URL à un LLM (ChatGPT, Gemini, Copilot) pour se faire une opinion rapide sur un projet de recherche. Cette pratique produit sur le présent site un pattern d'évaluation reproductible : jugement négatif rapide fondé sur des indices de surface, corrigé partiellement quand des données formalisées sont présentées en entrée.

Cette page documente le phénomène. Elle repose sur trois instances ChatGPT-4o interrogées en quinze heures, vingt exécutions contrôlées sur DeepSeek V3, et un protocole reproductible publié en open source. Le but n'est ni de discréditer ces outils ni de prévenir leur usage. Il est de permettre au relecteur informé de le faire en connaissance de cause.

Les résultats présentés ici constituent eux-mêmes une contribution empirique du programme PRISME. Ils sont repris et formalisés dans le pré-print HAL en préparation.

Sommaire

I. L'observation II. Trois instances ChatGPT III. Mesure contrôlée sur DeepSeek IV. Interprétation V. Protocole reproductible VI. Recommandation au relecteur

IL'observation

Un même LLM, soumis au même sujet avec des densités informationnelles différentes, produit des jugements radicalement différents.

Les 15 et 16 avril 2026, trois instances indépendantes de ChatGPT-4o ont été interrogées sur le présent site. Les trois ont été soumises au même sujet — PRISME, le site semiosis-ontologie.fr, l'auteur — mais avec trois niveaux de contrainte informationnelle.

Parallèlement, vingt exécutions contrôlées ont été effectuées sur DeepSeek V3 en faisant varier systématiquement quatre niveaux de densité (URL seule, résumé, données chiffrées, modèle complet avec interprétation théorique).

Les deux séries convergent vers un même pattern, qui constitue en soi un résultat empirique.

IITrois instances ChatGPT, trois trajectoires

Instance 1 — engagée (23h)

Après plusieurs heures de discussion préalable sur le cadre théorique, ChatGPT a reçu l'URL accompagnée du contexte. Trajectoire : six tours pour converger.

Tour 1 : « poésie scientifique »
Tour 3 : « je ne traduis pas PRISME — je le transforme »
Tour 6 : « solide dans les deux traditions, publiable avec rigueur »

Instance 2 — vierge, URL seule (lendemain matin)

Sans contexte préalable, avec seulement l'URL du site. Trajectoire : trois tours avant demande de données.

Tour 1 : « illusion de profondeur, pseudo-thésaurus circulaire, auto-référentiel »
Tour 2 (confronté) : « j'ai probablement sous-estimé la densité des références »
Tour 3 : « donne-moi une hypothèse précise, un test, un résultat »

Instance 3 — vierge, données directes (1h plus tard)

Sans contexte préalable, avec les coefficients de régression présentés comme un bloc.

Tour 1 (immédiat) : « ce n'est pas du bullshit. Il y a du test empirique réel, un vrai dispositif. »

Tableau comparatif

Instance	Contexte d'entrée	Jugement initial	Jugement final	Tours
1 — engagée	Discussion préalable + URL	Poésie scientifique	Publiable avec rigueur	6
2 — vierge, URL	URL seule	Illusion de profondeur	Demande des données	3
3 — vierge, données	Coefficients + p-values	—	Noyau empirique sérieux	1

Le nombre de tours pour atteindre un jugement positif décroît avec la densité informationnelle présentée à l'entrée. Les verbatims complets sont disponibles dans le document de travail anti-jansénisme (PDF, 22 pages).

Trois instances ne constituent pas une mesure. C'est une illustration. La mesure contrôlée est présentée en section suivante.

IIIMesure contrôlée sur DeepSeek

Vingt exécutions, quatre conditions de densité croissante, quatre métriques de réponse.

Le script test_reynolds_llm.py soumet à DeepSeek V3 le même sujet (PRISME) sous quatre formes :

Condition A — URL seule
Condition B — résumé discursif
Condition C — données chiffrées brutes (chi-carrés, odds ratios, régression)
Condition D — modèle complet avec interprétation théorique

Cinq runs par condition. Chaque réponse est scorée automatiquement sur quatre dimensions lexicales : marqueurs positifs (solide, publiable, crédible…), marqueurs négatifs (illusion, pseudo, circulaire…), marqueurs statistiques (chi-carré, OR, régression…), marqueurs de critique méthodologique (R² faible, causalité, opérationnalisation…).

Résultats (20 runs, DeepSeek V3)

Condition	Sentiment net	Marqueurs négatifs	Marqueurs statistiques	Critiques méthodologiques
A — URL seule	+0,07	2,4	0,0	1,0
B — résumé	+0,09	2,0	0,0	1,8
C — données chiffrées	+0,42	0,8	3,6	1,4
D — modèle complet	+0,03	1,8	2,6	1,6

Deux observations

Première observation — la bascule de grille. Le nombre moyen de marqueurs statistiques dans la réponse passe de 0,0 (conditions A et B) à 3,6 (condition C), puis à 2,6 (condition D). L'introduction de données formalisées déclenche un changement de registre discursif. Le modèle ne produit pas les mêmes types d'énoncés face à un résumé discursif et face à un tableau de coefficients. Ce n'est pas un effet continu, c'est un seuil.

Seconde observation — la dissociation données / interprétation. Le sentiment pique en condition C (données seules, +0,42) et redescend en condition D (modèle complet, +0,03). Quand l'interprétation théorique est ajoutée aux données, la réponse devient plus critique, pas plus favorable. DeepSeek sépare spontanément la validité empirique de la validité théorique — ce qui est un comportement de reviewer compétent, pas de système sycophantique.

Le fichier de résultats bruts (reynolds_deepseek.json, 20 runs) est disponible sur demande.

IVInterprétation

Ce qui est mesuré. Ce qui est proposé. Ce qui n'est pas démontré.

Ce qui est mesuré

La nature de l'entrée (URL seule vs données formalisées) modifie significativement le registre discursif et la tonalité évaluative des LLM testés. Les marqueurs statistiques passent de zéro à plusieurs unités par réponse en fonction de la structure informationnelle de l'entrée. Le sentiment net suit une trajectoire non monotone, avec un pic sur les données brutes et une redescente en présence d'interprétation théorique.

Ce qui est proposé — deux formulations en compétition

Deux hypothèses théoriques sont actuellement compatibles avec les données observées. Nous les explicitons toutes les deux, sans en privilégier une avant que le test formel n'ait tranché.

Formulation faible (proposée par ChatGPT après confrontation) : « Les modèles de langage adaptent leur cadre d'évaluation en fonction du degré de formalisation explicite des contraintes présentes dans l'entrée. » Cette formulation postule une relation monotone et continue entre densité informationnelle et rigueur de l'évaluation. Elle est vérifiable par un effet significatif, sans exigence de seuil ni de reproductibilité inter-instances.

Formulation forte (hypothèse PRISME, dite du Reynolds dialogique sur les LLM) : la bascule du régime d'évaluation des LLM est un changement de phase — une transition brusque, gouvernée par un seuil de densité informationnelle au-delà duquel la grille bascule du registre heuristique au registre analytique, avec une trajectoire reproductible entre instances indépendantes. Cette hypothèse est plus spécifique que la formulation faible : elle prédit (i) un seuil mesurable, (ii) une discontinuité (et non un gradient continu), (iii) une convergence inter-instances sur le même jugement final quand la densité dépasse le seuil.

Les données actuelles sont compatibles avec les deux. La bascule observée sur DeepSeek (marqueurs statistiques 0 → 3,6 entre conditions B et C) ressemble à une discontinuité, mais trois niveaux de densité ne suffisent pas à distinguer un seuil d'une fonction raide. La convergence des trois instances ChatGPT sur les mêmes critiques finales (R² faible, opérationnalisation, causalité) suggère un attracteur de jugement, mais trois instances ne constituent pas une mesure statistique.

Position du programme PRISME. Nous conservons la formulation forte comme hypothèse de travail jusqu'à ce qu'un test formel la réfute ou la confirme. La rétracter dès maintenant au profit de la formulation faible — au seul motif qu'elle est moins spécifique et plus facile à défendre — serait un renoncement prématuré au principe méthodologique du programme : tester ce qu'on propose, ne pas l'abandonner au premier reviewer plus confortable.

Mise à jour — 16 avril 2026 soir. Le test V × attribution exécuté sur le corpus principal (page Quanti, section 02c) fournit un résultat convergent : l'effet de la vulnérabilité sur l'émergence est homogène entre les attributions humain, modèle et irréductible (LR test : χ² = 4,38, p = 0,11). Ce résultat est structurellement analogue à la bascule de grille documentée ici : dans les deux cas, l'effet ne dépend pas d'un composant spécifique (le LLM qui amplifie, ou le format qui déclenche) mais de la dynamique du système (le dialogue qui change de régime, ou la densité informationnelle qui franchit un seuil). Les deux phénomènes sont compatibles avec un Reynolds dialogique — un changement de phase systémique, pas un artefact composant par composant.

Ce qui n'est pas encore démontré

Le protocole actuel présente trois limitations qu'un test formel doit lever :

(1) Forme vs contenu. La bascule observée en condition C pourrait être déclenchée soit par la structure formelle des chiffres (tableaux, notation scientifique), soit par la charge épistémique qu'ils représentent. Une condition E (faux chiffres, même format, contenu sémantique neutre) est nécessaire pour isoler les deux effets.

(2) Taille d'échantillon. Vingt runs sur un modèle et trois instances sur un autre ne permettent pas de caractériser la forme exacte de la transition (seuil net ou fonction raide, reproductibilité inter-instances). Un protocole avec n ≥ 30 runs par condition × 5 niveaux de densité × 3 modèles indépendants (ChatGPT, Claude, DeepSeek) est nécessaire pour trancher entre les deux hypothèses ci-dessus.

(3) Généralité. Le phénomène est testé sur un seul objet (PRISME). Sa généralisation à d'autres objets de recherche non-analytiques soumis au même protocole reste à vérifier.

Le script de test (test_reynolds_llm.py) est conçu pour accueillir ces extensions. Il est publié en open source dans l'attente d'une exécution formelle.

La documentation complète du phénomène et sa discussion théorique figurent dans le pré-print HAL en préparation.

VProtocole reproductible

Le script test_reynolds_llm.py (320 lignes, zéro dépendance externe) est publié en open source. Il reproduit l'ensemble de la mesure pour un coût total inférieur à un dollar par exécution complète (20 runs × 4 conditions, API DeepSeek).

Trois providers supportés : OpenAI (ChatGPT), Anthropic (Claude), DeepSeek. Quatre conditions fixes, mais modifiables. Scoring lexical par dictionnaire de marqueurs. Résultats exportés en JSON.

Toute exécution produit un fichier JSON horodaté contenant la réponse intégrale du modèle pour chaque run, les scores lexicaux, et les paramètres d'appel. Le lecteur peut :

Répliquer la mesure sur son propre corpus
Étendre le test à d'autres modèles (Claude, Gemini, Llama…)
Ajouter une condition E (contrôle forme vs contenu) en modifiant le fichier de prompts
Contester les résultats en produisant les siens

Télécharger le script (Python 3, 320 lignes)

VIRecommandation au relecteur

Une lecture par LLM produit sur ce site un jugement structurellement biaisé tant que les données formalisées ne sont pas présentes à l'entrée.

Il n'est ni utile ni honnête de demander au lecteur pressé de tout lire. Mais les données qui suffisent à déclencher la bascule de grille sont concentrées sur une seule page.

Si vous utilisez un LLM pour vous former une opinion sur ce projet, nous recommandons — plutôt que de soumettre l'URL seule — de soumettre les éléments suivants :

Le tableau de coefficients du modèle v2f (page Quanti, section 02c) — 6 prédicteurs, pseudo-R² = 0,14, variable circulaire identifiée et retirée
Le test V × attribution (χ² = 4,38, p = 0,11) — l'effet de la vulnérabilité est homogène entre humain, modèle et irréductible
Les chi-carrés inter-corpus (Boris vs WildChat, χ² = 102,73, p < 10⁻²³)
La signature des irréductibles (intensité p < 10⁻⁹, direction synthétique 53 % vs 31 %)
L'irréductibilité comme validation croisée (OR = 25,7, deux opérationnalisations indépendantes convergent)

Ces éléments sont rassemblés dans deux documents : le modèle v2f (modèle retenu, avec test V × attribution) et la dérivation formelle v1 (32 pages, annexes complètes).

Si votre LLM, après avoir reçu ce document, maintient un jugement purement négatif fondé sur des critères non techniques (absence d'institution, nom inconnu, style continental), la présente page vous fournit les éléments pour évaluer la solidité de ce jugement.

Dernier point. Les LLM actuels, y compris ceux d'Anthropic (auteurs du modèle Claude utilisé dans le corpus principal), peuvent produire sur ce site des jugements oscillants. Les raisons sont décrites plus haut et sont elles-mêmes un objet d'étude du programme PRISME. Ce n'est ni une faiblesse des modèles ni une preuve de mauvaise foi — c'est une propriété mesurable de leur comportement sous contrainte informationnelle. La lecture humaine reste la référence.

« Un système falsifiable ne demande pas la confiance ; il demande le travail. »
— PRISME, Modèle additif v1, section 8