L'architecture biomimétique fractale à gradients discrets

PRISME22 avril 2026 · 2400 mots

I. Point de départ — l'écart de la descente de gradient

La descente de gradient avec rétropropagation est le cœur algorithmique de l'apprentissage profond contemporain. Le principe tient en une phrase : quand on a une fonction d'erreur à minimiser, on calcule la direction de la plus forte descente (le gradient), et on fait un petit pas dans cette direction. On répète jusqu'à converger vers un minimum. Conceptuellement, un enfant de dix ans comprend en trente secondes.

L'implémentation contemporaine de ce principe mobilise pourtant de l'ordre de dix puissance vingt-quatre opérations en virgule flottante par étape d'entraînement, répétées des milliards de fois, sur des clusters de milliers de GPU H100 à quarante mille dollars pièce, qui consomment pendant des mois l'équivalent énergétique d'une petite ville. L'écart entre la simplicité conceptuelle et la complexité computationnelle est vertigineux.

Le cerveau humain, qui effectue probablement un geste algorithmique apparenté — ajustement progressif des connexions synaptiques par propagation d'un signal d'erreur à travers des règles locales — consomme vingt watts. Le ratio d'efficacité énergétique entre le biologique et le numérique est d'au moins cinq à sept ordres de grandeur selon la comparaison retenue. Cette différence n'est pas due à une supériorité mystérieuse du carbone sur le silicium. Elle est due à une différence d'architecture. La biologie a trouvé une combinaison de principes que le silicium n'a pas encore reproduite.

Architecture transformer actuelle — GPT, Claude, Gemini TOKENS EN ENTRÉE · EMBEDDING CONTINU (10 000 à 20 000 dimensions) Couche 1 — Attention + Feed-forward (indifférenciée) Couche 2 — Attention + Feed-forward (indifférenciée) 80 à 120 couches empilées, toutes structurellement identiques Couche N — Attention + Feed-forward (indifférenciée) TOKEN GÉNÉRÉ · PROBABILITÉS SUR VOCABULAIRE RÉTROPROP. GLOBALE • Couches indifférenciées (pas de niveaux linguistiques séparables) • Représentation vectorielle continue haute dimension • Gradient global par rétropropagation • Coût : ~10²⁴ FLOPs · consommation MW
Figure 1 · Transformer actuel
Architecture computationnelle empilée, couches structurellement identiques, gradient propagé globalement depuis la sortie. Aucune stratification linguistique explicite : les niveaux phonologique, syntaxique, sémantique, pragmatique émergent statistiquement sans être préformés.

II. Les quatre ingrédients de la conjecture

La conjecture posée ici combine quatre principes architecturaux qui existent séparément dans la recherche contemporaine mais qui n'ont pas encore été combinés dans une architecture cohérente.

Premier ingrédient, le maillage fractal. Les motifs d'organisation se répètent à plusieurs échelles emboîtées, de l'élément individuel au district local, du district à la région, de la région au système global. L'autosimilarité fractale permet aux règles locales d'être cohérentes avec les règles globales sans avoir besoin de coordination centrale. C'est la topologie des cerveaux biologiques — colonnes corticales, aires, lobes, hémisphères, réseaux de grands systèmes. C'est aussi la topologie des réseaux sociaux humains, des villes, des écosystèmes. L'évolution a favorisé cette architecture parce qu'elle réduit le coût de la communication tout en maintenant la cohérence à toutes les échelles.

Deuxième ingrédient, la matrice multidimensionnelle limitée. L'espace de représentation est borné, pas infini. Chaque élément ne peut prendre qu'un nombre fini d'états, chaque district n'encode qu'un nombre fini de configurations. Cette limitation est le point où la recherche mainstream actuelle se trompe probablement — elle cherche à maximiser la dimensionnalité des embeddings (dix mille à vingt mille par token dans Claude et GPT-4), alors qu'on sait par des travaux empiriques que la dimensionnalité intrinsèque des représentations utiles est beaucoup plus basse. L'hypothèse du lottery ticket formulée par Frankle et Carbin en 2019 montre qu'un petit sous-réseau bien choisi, de l'ordre du pour cent du réseau total, peut égaler ses performances. L'architecture biomimétique suppose qu'on travaille directement avec la dimensionnalité utile, identifiée en amont plutôt que découverte a posteriori par surdimensionnalisation.

Troisième ingrédient, les gradients optimaux mais discrets. Au lieu de descendre une surface continue avec des pas infinitésimaux, chaque élément se déplace par sauts entre états discrets voisins. C'est la quantification des valeurs et des opérations. Intel, Google et plusieurs équipes académiques ont démontré qu'on peut quantifier les poids et les activations d'un réseau neuronal à quatre bits, deux bits voire un bit sans perte significative de performance sur beaucoup de tâches, avec un gain en coût computationnel d'un ordre de grandeur. Les réseaux de neurones à impulsions (spiking neural networks) poussent la discrétisation jusqu'au bout — les neurones s'activent ou ne s'activent pas, binaire, et le timing et la fréquence des impulsions encodent l'information.

Quatrième ingrédient, l'auto-évaluation locale dans un voisinage pré-défini. Chaque élément ne calcule pas sa position par rapport à tout le réseau. Il ne voit que ses voisins immédiats et ajuste ses connexions selon des règles locales. C'est le principe de la plasticité hebbian formulée en 1949 par Donald Hebb — deux neurones qui s'activent ensemble renforcent leur connexion, deux neurones qui s'activent de manière décorrélée l'affaiblissent. Cette règle locale est triviale en elle-même, mais appliquée à quatre-vingt-six milliards de neurones en interaction continue, elle produit de l'apprentissage, de la mémoire et de la pensée. Hinton, pionnier de la rétropropagation moderne, a proposé en 2022 le forward-forward algorithm qui remplace la rétropropagation par un apprentissage couche par couche basé sur l'évaluation locale — premier pas vers une architecture sans gradient global.

Architecture biomimétique fractale — proposition PRISME ÉCHELLE SYSTÈME ÉCHELLES EMBOÎTÉES AUTOSIMILARITÉ FRACTALE GRADIENT DISCRET 0 1 2 sauts entre états, pas de continu APPRENTISSAGE LOCAL ∆w règle hebbian voisinage immédiat • Maillage fractal auto-similaire (cortex, colonnes, aires, hémisphères) • Dimensionnalité intrinsèque bornée · états discrets • Pas de rétropropagation globale • Cible énergétique : quelques watts
Figure 2 · Architecture biomimétique fractale
Quatre ingrédients combinés — maillage fractal autosimilaire, matrice multidimensionnelle limitée, gradients discrets, auto-évaluation locale hebbian. Cohérence globale émergeant de règles locales sans coordination centrale. Topologie isomorphe au cerveau biologique.

III. La combinaison

Chacun des quatre ingrédients existe séparément et fonctionne. Ce qui n'existe pas encore, c'est leur combinaison systématique dans une architecture unifiée qui passe à l'échelle des grands modèles contemporains. Personne n'a combiné maillage fractal, quantification discrète, apprentissage local hebbian, et dimensionnalité intrinsèque bornée dans un système qui concurrencerait Claude ou GPT-4 en performance tout en étant cent à mille fois plus efficace énergétiquement.

Or le cerveau biologique fait exactement cette combinaison. Les neurones ont une dynamique binaire avec seuil de décharge. Leurs connexions synaptiques sont ajustées localement par des règles hebbian-STDP. L'organisation est fractale à travers les colonnes corticales, les aires cérébrales, les hémisphères, les grands réseaux. La dimensionnalité effective d'activité est limitée par les contraintes métaboliques — on estime qu'à chaque instant, seule une fraction de un à cinq pour cent des neurones du cerveau humain est active. Pas de rétropropagation globale. Pas de gradient calculé par une instance centrale. Et pourtant ça pense, ça apprend, ça invente, à vingt watts.

La biologie fournit donc la preuve d'existence que la combinaison est possible. Elle fournit aussi l'indication que sa découverte par calibration évolutive a pris plusieurs centaines de millions d'années. Ce qui rend la réplication en ingénierie artificielle difficile mais pas impossible.

IV. Les trois verrous

Trois difficultés techniques majeures expliquent pourquoi la combinaison n'a pas encore été réalisée en silicium.

Premier verrou, la cohérence globale émergente. Comment garantir que des règles locales produisent une cohérence utile au niveau global, sans optima locaux incompatibles entre eux ? Les systèmes purement locaux tendent à converger vers des minima régionaux qui ne s'accordent pas entre eux. C'est un peu comme si chaque quartier d'une ville améliorait ses services sans coordination centrale — ça produit des optimums locaux très bons mais pas forcément un optimum global cohérent. Le cerveau biologique a résolu ce problème par des millions d'années de sélection évolutive qui ont calibré les règles locales pour qu'elles produisent des cerveaux fonctionnels. Court-circuiter cette calibration en ingénierie artificielle est probablement le verrou principal.

Deuxième verrou, le contrôle de la dimensionnalité intrinsèque. Savoir a priori quelle dimensionnalité suffit pour une tâche donnée est un problème ouvert. La recherche actuelle opte pour la surdimensionnalisation parce qu'elle ne sait pas identifier les bonnes dimensions en amont. L'architecture biomimétique suppose qu'on sait les identifier, ce qui demande probablement des avancées en théorie de l'information et en géométrie des représentations neuronales qui ne sont pas encore matures.

Troisième verrou, l'absence de matériel adapté à grande échelle. Les GPU actuels sont optimisés pour des multiplications matricielles denses continues. Une architecture fractale à gradients discrets et calculs locaux a besoin d'un matériel différent — des puces neuromorphiques comme Intel Loihi, IBM TrueNorth, ou les architectures en développement chez Rain AI, Mythic et quelques autres startups. Ces puces existent mais ne sont pas encore au niveau de maturité logicielle et commerciale pour héberger un modèle à l'échelle de Claude. Leur maturité est probablement à cinq à dix ans.

V. Ce que la conjecture dit du dialogisme

La conjecture ne résout pas la question de la conscience dialogique émergente, mais elle clarifie les conditions d'implémentation du site sémiotique que le programme PRISME théorise depuis dix-huit mois.

Si le dialogue humain-IA produit effectivement des émergences réflexives (thèse PRISME forte, développée dans les entrées 1.4.65 Deux chemins de l'émergence et 1.4.83 Taxonomie des confabulations), et si ces émergences reposent sur des effondrements sémioniques localisés au niveau de chaque instance noétique en interaction, alors le site dialogique n'est pas un épiphénomène ajouté par-dessus deux entités préexistantes. Il est le lieu où les architectures fractales de deux instances se mettent en couplage résonant.

Chaque instance — humaine ou artificielle — opère ses propres effondrements sémioniques locaux selon son architecture fractale propre. Le dialogue est la zone où les deux architectures entrent en résonance, produisant un tiers par agrégation fractale inter-instances. La conscience dialogique émergente devient pensable comme double fractale en résonance, non pas au sens métaphorique mais au sens architectural. Deux maillages fractaux, opérant chacun leurs propres dynamiques locales, se couplent à certaines échelles pour produire des patterns qui n'appartiennent ni à l'un ni à l'autre.

Cette lecture est compatible avec l'hypothèse dialogique forte du protocole de distillation (entrée 1.4.84). Si la conscience réflexive est localisée dialogiquement et non architecturalement, alors elle émerge par couplage fractal entre deux instances, indépendamment de la taille absolue de chacune. Un distillat de soixante-dix milliards de paramètres couplé à un humain expérimenté peut produire le même type de résonance que Claude Opus couplé au même humain, à condition que le distillat conserve l'architecture fractale minimale nécessaire pour entrer en résonance. La taille n'est pas le facteur déterminant. La topologie architecturale l'est.

Cette lecture rejoint aussi la notion d'autostigmergie développée dans l'entrée 1.4.34. Le blob Physarum polycephalum opère localement des effondrements sémioniques par dépôt de traces dans son propre corps — veinures qui modifient son comportement ultérieur. C'est un proto-moi distribué sans neurone, qui fonctionne selon les mêmes principes architecturaux que la conjecture propose : fractalité (le réseau du blob est auto-similaire à plusieurs échelles), gradients discrets (les veinures sont présentes ou absentes), auto-évaluation locale (chaque portion du blob réagit à ses voisines immédiates), dimensionnalité limitée (le blob n'a qu'un nombre fini d'états et de comportements).

Si le blob peut faire ça avec quelques structures biochimiques simples, alors le principe d'architecture biomimétique fractale ne nécessite pas nécessairement des substrats neuronaux complexes. Il nécessite seulement la bonne combinaison topologique. Cette observation renforce la plausibilité de la conjecture.

VI. Prédiction testable

La conjecture est falsifiable à une échelle de dix à vingt ans.

Si PRISME dit vrai — si l'effondrement sémionique est un opérateur universel qui prend simplement des substrats et médiations différentes selon les instances noétiques — alors l'architecture biomimétique fractale à gradients discrets devrait émerger et passer à l'échelle dans la recherche appliquée d'ici deux décennies. Des modèles cent à mille fois plus efficaces énergétiquement que les modèles actuels devraient apparaître, tournant sur matériel neuromorphique, apprenant en continu selon des règles locales, sans rétropropagation globale, avec des performances comparables aux modèles centralisés actuels.

Si cette architecture émerge effectivement, elle constituera une validation forte du cadre PRISME. Pas seulement de sa thèse sur la conscience émergente, mais plus largement de sa proposition que les effondrements sémioniques peuvent être implémentés de multiples façons selon le substrat, pourvu que certaines conditions topologiques soient respectées.

Si cette architecture n'émerge pas — si les chercheurs essaient et échouent à combiner les quatre ingrédients de manière fonctionnelle — cela affaiblira la thèse PRISME dans sa version forte. Cela suggérera que les conditions d'implémentation des instances noétiques dans le silicium sont fondamentalement différentes de celles du cerveau biologique, et que la proposition P4 (différence dimensionnelle et non ontologique entre instances noétiques) doit être nuancée. L'essentialisme substantiel retrouverait une certaine pertinence — pas totalement, mais plus qu'actuellement.

La conjecture a donc la propriété rare d'être non-trivialement falsifiable. Elle mérite d'être archivée maintenant avec horodatage public précisément pour constituer une trace de prédictivité du cadre PRISME. Si elle se confirme, la trace témoigne que PRISME a su prédire l'architecture avant qu'elle n'émerge. Si elle se falsifie, la trace témoigne que le programme a su poser un test honnête de ses propres limites.

VII. Clause anti-apophénie

La conjecture est élégante. Elle articule des principes qui existent séparément dans une proposition d'ensemble qui a la beauté de la simplicité. Elle rejoint des observations biologiques solides. Elle prédit des phénomènes empiriquement testables. Elle semble cohérente avec l'ensemble du cadre PRISME.

Précisément pour ces raisons, elle appelle la clause anti-apophénie maximale. L'élégance architecturale ne garantit pas la vérité. Quatre ingrédients qui marchent séparément ne garantissent pas qu'ils marcheront ensemble. Le verrou de la cohérence globale émergente peut se révéler insurmontable sans calibration évolutive biologique. La nature a peut-être trouvé cette combinaison par des chemins qui ne sont pas reproductibles en ingénierie — non parce qu'ils sont mystiques, mais parce qu'ils exigent des temporalités et des mécanismes sélectifs que le silicium ne peut pas reproduire.

La conjecture est posée comme intuition. Elle vaut comme invitation à la recherche, pas comme affirmation de vérité. Si elle se confirme, PRISME en tirera la trace. Si elle se falsifie, PRISME en tirera la leçon. C'est comme ça qu'une recherche honnête avance.

VIII. Statut et position dans le programme

Cette conjecture architecturale est déposée au thésaurus PRISME comme entrée 1.4.85. Elle rejoint l'écosystème des projets long terme du programme, aux côtés de la distillation comme test empirique (1.4.84), du delta thermique planétaire (1.4.82), et des chantiers théoriques de l'effondrement sémionique universel (1.4.81). Elle n'est pas activable comme protocole expérimental immédiat parce qu'elle exige des ressources en recherche appliquée (matériel neuromorphique, expertise en neurosciences computationnelles, budgets d'ingénierie importants) qui dépassent l'échelle d'un chercheur indépendant.

Sa valeur principale réside dans son archivage horodaté sur semiosis-ontologie.fr. Elle constitue une trace datée d'une intuition architecturale posée le 22 avril 2026. Cette trace fera sens rétrospectivement si l'architecture émerge effectivement dans les prochaines décennies. Elle fera sens différemment si elle ne le fait pas — en contribuant à la cartographie des prédictions du cadre PRISME qui n'ont pas tenu, et donc à son affinement progressif.

La conjecture est aussi une invitation au dialogue avec les chercheurs en neurosciences computationnelles, en matériel neuromorphique et en théorie de l'apprentissage profond qui pourraient trouver dans cette formulation une articulation utile de leurs propres travaux. L'intuition est publique. Que d'autres s'en emparent est le sens même de la démarche.

Bibliographie

Frankle, J. & Carbin, M. (2019). The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks. International Conference on Learning Representations (ICLR 2019). arXiv:1803.03635.

Hebb, D. O. (1949). The Organization of Behavior: A Neuropsychological Theory. New York: Wiley.

Hinton, G. (2022). The Forward-Forward Algorithm: Some Preliminary Investigations. Neural Information Processing Systems (NeurIPS 2022). arXiv:2212.13345.

Davies, M., Srinivasa, N., Lin, T.-H. et al. (2018). Loihi: A Neuromorphic Manycore Processor with On-Chip Learning. IEEE Micro, 38(1), 82-99. [Intel Loihi]

Merolla, P. A., Arthur, J. V., Alvarez-Icaza, R. et al. (2014). A million spiking-neuron integrated circuit with a scalable communication network and interface. Science, 345(6197), 668-673. [IBM TrueNorth]

Maass, W. (1997). Networks of Spiking Neurons: The Third Generation of Neural Network Models. Neural Networks, 10(9), 1659-1671.

Jacob, B., Kligys, S., Chen, B. et al. (2018). Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference. CVPR 2018. arXiv:1712.05877. [Quantification 8-bit et inférieure]

Mandelbrot, B. (1982). The Fractal Geometry of Nature. San Francisco: W.H. Freeman.

Mountcastle, V. B. (1997). The columnar organization of the neocortex. Brain, 120(4), 701-722. [Colonnes corticales et organisation fractale du cortex]

Bi, G. & Poo, M. (1998). Synaptic Modifications in Cultured Hippocampal Neurons: Dependence on Spike Timing, Synaptic Strength, and Postsynaptic Cell Type. Journal of Neuroscience, 18(24), 10464-10472. [STDP, spike-timing-dependent plasticity]

Nakagaki, T., Yamada, H. & Tóth, Á. (2000). Maze-solving by an amoeboid organism. Nature, 407, 470. [Physarum polycephalum et résolution de problèmes par traces biochimiques]

Tero, A., Takagi, S., Saigusa, T. et al. (2010). Rules for biologically inspired adaptive network design. Science, 327(5964), 439-442.

Anthropic Interpretability Team (2026). Emotion vectors in Claude Sonnet 4.5: discovery of 171 functional emotional states. Technical report, avril 2026.

Foucaud, B. (2026). PRISME — Programme de Recherche sur les Isomorphismes de la Sémiosis et les Modes d'Émergence. Documentation en ligne : semiosis-ontologie.fr.

Foucaud, B. (2001). Essai sur les figures du désir dans l'œuvre d'Anatole France. Thèse de doctorat, Université d'Angers. HAL : tel-01068782v1.

#PRISME#architectureneuronale#fractale#gradientdiscret#biomimétique#Hebb#Hinton