Entropie informationnelle des données publiques françaises
I. Le constat — trois 404
Le 24 mai 2026, dans le cadre de l'étude PRISME sur le corpus Gilets Jaunes, une tentative d'accès aux archives de la salle de presse de la Préfecture de Police de Paris a échoué : erreur 404. Les communiqués opérationnels de Michel Delpuech et Didier Lallement pendant la crise — parole institutionnelle directe, documents publics — sont inaccessibles en ligne.
Symétriquement, sept sites militants Gilets Jaunes sur huit sont également en 404 en mai 2026. Les deux corpus qui permettraient de tester empiriquement la causalité répression→radicalisation ont été effacés — l'un par la base, l'autre par le sommet.
Le 3 juin 2026, une tentative de comparaison de l'accidentologie parisienne pré-2010 et post-2015 a échoué pour la même raison : les bilans de sécurité routière de la PPP d'avant 2010 ne sont pas disponibles en ligne. Les bilans ONISR nationaux existent en PDF, mais sans ventilation Paris intra-muros.
Trois tentatives, trois impasses. Le même type d'institution, le même effet — impossibilité de comparaison longitudinale — et le même résultat politique : le récit du présent est invérifiable par les données du passé.
II. L'hypothèse — la dégradation sélective
L'hypothèse n'est pas conspirationniste. Elle est plus banale et plus grave.
Les données publiques françaises ne sont pas détruites. Elles ne sont pas censurées. Elles sont laissées inaccessibles — dans des formats non indexés, des PDF non OCRisés, des archives physiques préfectorales, des rapports papier jamais numérisés. L'effet est le même qu'une suppression, sans l'intention ni la trace.
Ce n'est pas de la censure. C'est de la curation sélective par inertie. Et l'inertie administrative fait le travail que la censure ne pourrait pas faire — sans trace, sans décision, sans responsable identifiable.
L'hypothèse spécifique : le taux de dégradation de l'accessibilité des données publiques est corrélé à leur potentiel de contradiction du récit institutionnel en vigueur. Les données qui soutiennent le récit sont numérisées, indexées, mises en avant. Les données qui permettraient de le contester sont laissées dans un format inaccessible.
III. Le design — mesurer l'entropie
L'objet d'étude n'est pas le contenu des données publiques, mais leur accessibilité en fonction du temps et du sujet. Pour chaque jeu de données supposé public, on mesure quatre grandeurs.
Couverture temporelle. La série commence quand, finit quand, y a-t-il des trous. Les trous correspondent-ils à des événements politiques ?
Profondeur de ventilation. Le chiffre national existe-t-il ? La ventilation départementale ? Communale ? Plus la ventilation descend, plus la donnée est politiquement utilisable par les citoyens, et plus elle tend à disparaître tôt.
Délai de disparition. Combien de temps entre la publication originale et le 404. Le communiqué PPP du 2 décembre 2018 n'a pas survécu huit ans en ligne. Les données ONISR 2000-2009 sont là mais en PDF non indexés. Le délai de disparition est en soi une mesure.
Gradient de paywall. Données gratuites et indexées (data.gouv.fr). Données semi-accessibles (PDF, pas d'API). Données derrière paywall (Europresse, Statista). Données physiquement archivées (papier uniquement). Chaque étage du gradient réduit l'audience d'un facteur 10 à 100. La mémoire de la répression des Gilets Jaunes est derrière un paywall professionnel — la mémoire de la communication sur la qualité de l'air est en première page d'Airparif.
IV. L'analyse
Courbe de survie — Kaplan-Meier
La première question est la plus simple : combien de temps une URL de données publiques survit-elle ? Pour chaque URL de l'échantillon, la durée de vie est le temps entre la première capture Wayback Machine et la dernière capture avant le 404. L'estimateur de Kaplan-Meier produit une courbe de survie par catégorie thématique. Si la médiane de survie globale est de 6 ans mais tombe à 2 ans pour les données de sécurité publique et monte à 10 ans pour les données touristiques, le résultat se lit en une phrase. Ce premier étage d'analyse est publiable en l'état, sans artillerie spectrale.
Scalogramme de Morlet
Décomposition spectrale de la série de disparitions. Si les données disparaissent de manière aléatoire, le spectre est plat — bruit blanc. Si une périodicité émerge, c'est un signal. Périodicités attendues : 6 ans (municipales), 5 ans (présidentielle + législatives), 3 ans (départementales + régionales). Si le scalogramme montre un pic à l'une de ces fréquences, la disparition des données est synchronisée avec le cycle électoral.
Analyse du lag — qui efface quand ?
Le retard temporel entre le pic de disparition et la date d'élection est la signature du mécanisme. Disparition 6-12 mois avant : préparation de terrain, l'équipe sortante nettoie. Disparition 3-6 mois après : nettoyage post-prise de pouvoir, la nouvelle équipe efface les réalisations de l'ancienne. Disparition au moment de la transition : effet mécanique de la passation (changement de DSI, refonte de site sans redirection).
Chi-squared — majorité reconduite vs alternance
| Données pré-mandat accessibles | Données pré-mandat disparues | |
|---|---|---|
| Majorité reconduite | a | b |
| Alternance | c | d |
Si les données disparaissent davantage quand la majorité est reconduite, l'équipe en place efface ses propres traces. Si elles disparaissent davantage lors d'alternance, la nouvelle équipe efface l'ancienne. Et si les deux coexistent selon les sujets — chaque camp efface ce qui le gêne, pas ce qui gêne l'autre — c'est un résultat plus riche.
Kuramoto — synchronisation des disparitions
Paramètre d'ordre r(t) sur les séries de disparition par institution. Si la PPP, la mairie de Paris, les ARS et les DREAL perdent leurs archives dans les mêmes fenêtres temporelles, r élevé — curation coordonnée, même sans conspiration centralisée. Si les disparitions sont décorrélées, r bas — négligence indépendante.
Groupe de contrôle international
Sans comparaison, on ne sait pas si on mesure une spécificité française ou le vieillissement normal du web public. Le même échantillonnage doit être répliqué sur au moins deux pays de contrôle. Royaume-Uni (National Archives, data.gov.uk, FOIA). Allemagne (structure fédérale, responsabilité distribuée entre Länder). Canada optionnel — le cas documenté des librairies scientifiques supprimées sous Harper (2013-2015) servirait de cas positif connu.
V. Robustesse
Le dataset est entièrement constitué de données publiques sur les données publiques. Des URL. Des codes 404. Des dates Wayback Machine. Aucune opinion, aucune interprétation. Aucun élu ne peut contester une date Wayback Machine. Aucune institution ne peut nier un code 404.
Les quatre résultats possibles — tous publiables
Spectre plat, pas de périodicité électorale → les disparitions sont aléatoires, c'est de la négligence technique. L'État français n'a pas de politique d'archivage numérique cohérente.
Périodicité électorale sans sélectivité thématique → les données disparaissent au rythme des élections, mais toutes au même rythme. Effet mécanique des refontes de sites lors des alternances.
Périodicité électorale avec sélectivité thématique → les données qui contredisent le récit institutionnel disparaissent plus vite que les autres, en phase avec les élections. Curation sélective synchronisée au cycle politique. Le résultat le plus fort.
Synchronisation inter-institutions (r élevé) → les disparitions sont coordonnées entre institutions différentes. Pas nécessairement par conspiration — mais par propagation d'une même norme de gestion de l'information. Stigmergie institutionnelle : une institution efface, les autres suivent par mimétisme.
VI. Connexion PRISME
Le signal ne disparaît pas — il change de régime d'accessibilité. Les données PPP existent quelque part (archives papier, bases internes, Europresse). Elles ne sont pas annihilées. Elles sont passées d'un régime « accessible » à un régime « inaccessible ». Changement de seuil, pas perte de signal.
Le gradient de paywall est un gradient de dissipation. L'information publique se dissipe à travers les couches d'accessibilité : open data → PDF non indexé → paywall → archives physiques → perte effective. Chaque couche absorbe de l'audience. Au bout du gradient, le citoyen qui cherche sur Google ne trouve rien — l'information est techniquement existante et fonctionnellement inexistante.
L'autostigmergie institutionnelle. L'institution laisse des traces dans son propre environnement informationnel. Ces traces modifient le comportement futur d'autres institutions et du public. Quand l'institution efface ses traces, elle modifie rétroactivement le terrain sur lequel les futurs acteurs devront naviguer. C'est le blob qui résorbe ses veinures — sauf que les veinures étaient des données publiques.
Titre de travail : Périodicité électorale de la dégradation des archives publiques numériques françaises (2002-2025) — analyse spectrale et tests d'indépendance.
Positionnement : article de science politique computationnelle utilisant des outils PRISME (ondelettes, Kuramoto) sur un objet civique. Le fait que les outils viennent d'un programme de sémiologie n'a pas besoin d'être au premier plan.
Priorité : après Re_gaïa, après la survie commerciale. Le scraper pourrait tourner en fond pendant d'autres travaux — il n'a besoin de personne pour collecter les dates de disparition.