Accueil > 02 - SCIENCES - SCIENCE > Atome : La rétroaction de la matière/lumière et du vide (de la (...) > La « théorie de l’information » domine-t-elle la physico-chimie-biologie ?

La « théorie de l’information » domine-t-elle la physico-chimie-biologie ?

lundi 13 juin 2016, par Robert Paris

Rolf Landauer : « L’information est de nature physique »

La « théorie de l’information » domine-t-elle la physico-chimie-biologie au point que l’information remplace la matière et devienne le génie génétique ?

Théorie algorithmique de l’information

Entropie de Shannon

La biologie du vivant n’est pas une branche de la « théorie de l’information »

La théorie de l’information ne décrit pas la complexité du vivant

Le cerveau n’est pas un ordinateur

L’univers n’est pas un ordinateur

L’intelligence humaine n’est pas une somme d’informations

Le cerveau n’est pas une machine

Notre corps-cerveau n’est pas assimilable à un ordinateur

La connaissance n’est pas de l’information

Contre la thèse de la théorie de l’information quantique

La théorie de l’information est une des variantes de la théorie du « tout est mathématiques ».

Il y a également un grand nombre de variantes au sein de la « théorie de l’information » mais le sens général de l’idée est de considérer que le fonctionnement matériel ou celui du vivant proviendrait des propriétés, non de la matière elle-même, mais de l’information qu’elle porte, les lois devenant dès lors celles de l’information et ressemblant à celles de l’électronique et de l’informatique, des ordinateurs. Et cela peut aller jusqu’à nier toute réalité à la matière en physique, la transformant en une sorte de pensée mathématique, dont les lois recouvriraient toutes les lois de la physique (et aussi de la chimie et de la biologie), thèse qui a d’autant plus de succès qu’elle va dans le sens du tout technologique, qu’elle va dans le sens aussi du tout communications, qu’elle est à la fois anti-matérialiste et mathématique au sens de la logique formelle donc anti-dialectique. Inutile de préciser que, pour notre part, nous ne soutenons aucune de ces conceptions, étant au contraire favorables à une conception matérialiste et dialectique…

La théorie de l’information est du même type que les conceptions qui affirment que les idées préexistent à la réalité, que la pensée humaine crée la matière, que la forme prime sur le fond alors que, dans tous ces domaines, la contradiction est dialectique et les contraires coexistent, se combattent sans se dominer ni se détruire ou s’effacer mutuellement. Aucun réductionnisme ne permet de résoudre par la suppression ces contradictions dialectiques.
Penser qu’on va remplacer la matière, la vie ou le cerveau par l’information revient au même que croire que l’on va remplacer la physique par ses lois mathématiques, c’est de l’idéalisme pur, c’est-à-dire l’opposé du matérialisme. Bien des scientifiques ont été atteints par cette vision déformée qui remplace la réalité par son observation par l’homme.

Le fait que l’homme puisse observer le fonctionnement naturel altère visiblement la compréhension de nombreux hommes de ce fonctionnement et les amène à penser que leur pensée humaine est le modèle de fonctionnement de la nature. Par exemple, l’homme peut calculer la trajectoire des mobiles par les lois de la gravitation mais cela ne signifie pas que les mobiles naturels se déplacent en calculant des trajectoires et pas en interagissant réellement. Ce n’est pas le calcul qui mène le monde et le calcul n’est pas une description exacte du fonctionnement, mais seulement une image pratique dans des domaines limités. La vision du monde comme un vaste calcul est le fondement de la conception de la physique ou de la biologie conçues comme une théorie de l’information. C’est une forme d’animisme moderne et de religion de la nature. Mettre les mathématiques au dessus du monde est une manière de retrouver un dieu qui dominerait le fonctionnement du monde.

Mais il n’y a pas que des raisons philosophiques de refuser le monde purement mathématique de la « théorie de l’information ». Il y a de nombreuses raisons scientifiques de la refuser dans les domaines physiques et biologiques.

Tout d’abord, une raison de fond : personne n’a jamais pu décrire entièrement un phénomène de manière purement mathématique. La physique prétend que les mathématiques sont le langage de la physique mais la physique est incapable de se contenter des mathématiques pour décrire une seule expérience ! D’autre part, les équations qui décrivent non la nature mais les lois, ce qui est très différent, nous donnent des lois aux dérivées partielles non linéaires qui n’ont aucune solution analytiques et ne peuvent donc avoir que des solutions approchées (qui plus est plusieurs solutions possibles généralement). Il est donc impossible de prétendre que « la nature suit les équations » !

D’autre part, donner une origine non contradictoire dialectiquement au fonctionnement de l’univers, c’est le concevoir bancal, ne marchant pas sur ses deux pieds. C’est s’empêcher de comprendre d’où viennent les contradictions et, avec elles, d’où viennent les dynamiques, les émergences, les fabriques de diversité.

Selon nous, la dynamique du monde n’est nullement le déroulement linéaire d’un principe unique mais, au contraire, la succession de longues périodes sans changement suivies de révolutions qui reposent entièrement les fondements. Les structures que nous observons ne sont autres que les vestiges de ces révolutions. Les lois ne marquent que la conservation et pas la révolution.

Dans la mode du tout ordinateur, du tout informatique, du tout robotique et domotique, du tout communication, il est normal qu’on en vienne à des auteurs pour lesquels le monde est tout entier un ordinateur, un calculateur, un robot, ce qui est pourtant un recul vers une espèce de conception mécaniciste et idéaliste mais il n’est pas nécessaire de tomber dans ce travers…

L’idée que tout est de l’information transforme le monde matériel en un monde pour l’homme, ce qui est un anthropocentrisme erroné. L’information n’est pas une interprétation suffisante ni de la vie, ni de la matière. Et pas même du fonctionnement du cerveau humain qui n’est nullement un ordinateur, pas plus que les connexions nerveuses ne sont des fils électriques. Le fonctionnement du cerveau est dialectique, fondé sur construction/destruction du message neuronal et d’activation/désactivation des circuits neuronaux. La connaissance humaine n’est pas une somme d’informations mais une abstraitisation/concrétisation dialectique et une conceptualisation/expérimentation tout aussi contradictoire dialectiquement. Aucun de ces processus n’est résumable par la théorie de l’information, quelle qu’en soit la version.

Les fondateurs de la « théorie de l’information » :

Claude Shannon et la théorie de l’information

La théorie de Shannon

La théorie de Kolmogorov

Kolmogorov, Solomonov et Chaitin et la théorie algorithmique de l’information

Entropie de Shannon

Léon Brillouin dans Science et théorie de l’information

La vie est-elle un programme de calcul de l’information ?

Le cerveau considéré en théorie de l’information

Systèmes d’information organisationnels

La science de l’information

Fondements de la théorie de la transmission de l’information

La théorie de Roy Frieden (en anglais)

La théorie de l’information et l’évolution du vivant (en anglais)

Science et théorie de l’information de Brillouin (en anglais)

La théorie de l’information appliquée à la physique de l’espace-temps (en anglais)

Physique statistique et théorie de l’information (en anglais)

Dans une conférence de l’Université de tous les savoirs, Roger Balian affirme relier la théorie de l’information et la thermodynamique statistique dans « Entropie, information : un concept protéiforme » :

« La théorie de la communication a pour objet d’optimiser la transmission à distance de messages, qu’ils soient écrits, sonores ou visuels. Elle a été fondée en 1948 par Claude Shannon et Warren Weaver, mathématiciens américains qui travaillaient alors à l’amélioration des systèmes de téléphonie. Il leur fallait dans ce but comparer les performances de divers processus de transfert d’information, et une telle comparaison nécessitait de chiffrer la quantité d’information véhiculée par les messages à transmettre. Un problème semblable se pose en informatique lorsqu’on souhaite stocker dans une bande magnétique, un disque ou une mémoire d’ordinateur divers documents, qu’il s’agisse de données numériques, de textes, de musique, d’images réelles ou virtuelles. Il importe alors d’occuper le moins de place possible dans la mémoire, et on ne peut y parvenir systématiquement que si l’on sait évaluer numériquement la quantité d’information contenue dans ces documents.

On remarquera d’abord que le message à transmettre (ou le document à stocker) n’a pas de signification en soi, mais qu’il est extrait d’une famille de messages, tous a priori susceptibles d’être émis. (…) La quantité d’information associée à un message est une fonction décroissante de sa probabilité. De plus, cette fonction doit être additive : si un message est constitué de deux parties statistiquement indépendantes, la quantité d’information qu’il apporte doit être la somme des quantités d’information apportées par chacune de ses parties, tandis que sa probabilité est le produit des probabilités de ses parties. Il en résulte que la quantité d’information véhiculée par un message de probabilité Pm est Im égale le logarithme en base deux de l’inverse de cette probabilité – loi (1). Le choix de la base deux pour le logarithme définit l’unité d’information, le bit : si le message se réduit à l’annonce du résultat d’un tirage à pile ou face, sa probabilité vaut ½ et il transporte un bit d’information.

Plaçons-nous avant transmission (ou avant mise en mémoire). Le destinataire ne connaît encore que l’ensemble des messages susceptibles d’être reçus. Son incertitude I, sa perplexité, est mesurée par la valeur moyenne de la quantité d’information qu’il va acquérir lors de la réception de l’un d’eux. Ce « manque d’information » I s’obtient donc en pondérant l’information Im associée à chaque message par la probabilité Pm de recevoir ce message. Dans le cas particulier où les messages, en nombre total W, ont tous la même probabilité P=1/W, on a : I = somme des produits Pm x Im = logarithme en base deux de W.

Ce concept de manque d’information est utilisé en pratique pour optimiser le tranfert de messages ou le stockage de documents. Dans les deux cas, il est nécessaire de coder le message ou le document par des signaux, par exemple électriques ou magnétiques, qui seront émis ou mémorisés.

L’emploi de l’expression

I = somme des produits Pm x Im = logarithme en base deux de W

permit à Shannon et Weaver de démontrer une propriété remarquable : il existe pour toute famille de messages un mode de codage optimal qui permet de faire transiter un maximum d’informations dans une ligne de communication donnée, malgré les pertes éventuelles de signaux, ou de rendre minimal l’espace occupé par des documents dans une mémoire. (…)

Les notions de mémorisation, de communication et de codage sont devenues essentielles en biologie depuis que l’on a découvert le rôle de l’information génétique dans les mécanismes moléculaires du vivant. La séquence des nucléotides qui se succèdent le long des chaînes d’ADN forme un message, mémorisé dans les chromosomes ; ce message est codé par un alphabet de 4 lettres, les 4 nucléotides. Par ailleurs, les protéines assurent les principales fonctions vitales grâce à leur structure, elle-même gouvernée par la séquence d’acides aminés qui constitue chaque protéine. Ce type de séquence forme encore un message, codé cette fois par un alphabet de 20 lettres, les 20 acides aminés. C’est la transcription du message de l’ADN qui engendre l’enchaînement des acides aminés lors de la synthèse d’une protéine dans la cellule. (…)

La théorie de l’information rend quantitative la notion d’incertitude liée à une description probabiliste, en associant le nombre I au caractère incomplet de notre connaissance des événements m susceptibles de se produire. L’existence de cette mesure de l’incertitude a donné naissance à un critère dit d’entropie maximale, utilisé pour affecter des probabilités à des événements aléatoires, par exemple pour interpréter des images imparfaites : parmi les diverses lois de probabilité possibles, on choisit celle qui rend l’incertitude I maximale afin d’éviter des affirmations infondées. (…)

Venons-en au concept d’entropie, qui paraît à première vue étranger à celui de quantité d’information, quoique tous deux soient issus de considérations technologiques. L’information a été introduite pour améliorer le rendement des systèmes de communication. Le thermodynamique, dont l’entropie est l’une des grandeurs fondamentales, est née en 1824 des « Réflexions sur la puissance motrice du feu » de Carnot, en liaison avec le rendement des machines à vapeur. Elle est devenue ensuite la science des transformations : elle fournit les lois générales qui régissent toute transformation susceptible de survenir dans la matière à l’échelle macroscopique, c’est-à-dire à notre échelle. Ces transformations peuvent être associées à des échanges de chaleur, à des phénomènes mécaniques, électromagnétiques ou encore chimiques. Certaines d’entre elles sont réversibles. (…) D’autres transformations sont irréversibles, comme la transformation d’énergie mécanique en chaleur dans un frein de voiture, comme un flux spontané de chaleur qui ne peut s’écouler que dans un sens, du chaud vers le froid, ou comme une combustion. (…)

La notion d’entropie a d’abord été utilisée pour caractériser mathématiquement l’irréversibilité de phénomènes thermiques. Considérons un processus où une source chaude cède de la chaleur, dont une partie est transformée en travail et dont le reste s’écoule vers une source froide. A la conservation de l’énergie s’ajoute la contrainte exprimant la croissance de l’entropie totale : le corps froid doit gagner plus d’entropie que le corps chaud n’en perd. Cette inégalité fournit une limite supérieure au travail que l’on peut extraire du processus, donc au rendement des machines thermiques. (…)

Introduite par Clausius à l’échelle macroscopique, l’entropie s’est donc révélée avoir une origine « microscopique » et « statistique ». Même si elle se manifeste à notre échelle, nous ne pouvons comprendre sa signification que dans le cadre de la physique statistique, où elle s’identifie à une incertitude, un manque d’information : l’entropie d’un système n’est autre que la mesure de notre méconnaissancede ce système à l’échelle microscopique. (…)

Cette interprétation de l’entropie éclaire la signification microscopique du deuxième principe. Lors d’une transformation spontanée d’un système isolé, la croissance de l’entropie S accompagne le changement des variables thermodynamiques inobservables qui leur est associé. Notre information microscopique résultante ne peut que croître ; en d’autres termes, le système ne peut devenir moins désordonné qu’il n’était au départ. (…)

Nous avons identifié le manque d’information, grandeur subjective (ou plutôt intersubjective car commune à tous les observateurs disposant des mêmes informations), au désordre, grandeur en apparence objective. En réalité, l’ordre n’est pas une propriété des objets pouvant se définir de façon absolue. (…)

Au cours des dernières décennies, le concept d’entropie ou d’information a été appliqué à des domaines de plus en plus variés : théorie de la mémoire, problèmes d’optimisation, cosmologie, théorie du chaos, bio-information, etc. Il a aussi continué à subir diverses métamorphoses. Alors que l’entropie de la thermodynamique caractérise le désordre microscopique régnant à l’équilibre dans un système physique, l’entropie de Kolmogorov (1949) sert à préciser le caractère désordonné d’une dynamique et l’incertitude sur l’évolution d’un système. Par ailleurs, on a pu caractériser le désordre associé à un message ou une configuration unique sans faire appel comme dans la loi (1) aux probabilités Pm. La quantité d’information est alors remplacée par le concept apparenté de « complexité algorithmique », définie comme suit. On commence par numériser le message, c’est-à-dire le représenter par un nombre à l’aide d’un code. On imagine ensuite comment ce nombre peut être construit par des opérations algébriques dans un ordinateur idéal ; le logarithme de la longueur du programme informatique le plus économique pour y parvenir définit la complexité algorithmique. Pour une famille de messages, la moyenne de cette complexité » s’identifie au manque d’information. »

Dans « Le quark et le jaguar », Murray Gell-Mann discute une des conceptions de la « théorie de l’information », dans une version du type « théorie de la complexité » :

« Qu’entend-on réellement par les termes opposés de simplicité et de complexité ? En quel sens la gravitation einsteinienne est-elle simple alors qu’un poisson rouge est complexe ? Ce ne sont pas là des questions faciles – définir « simple » n’est pas simple. Il est probable qu’aucun concept unique de complexité puisse à lui seul saisir les notions intuitives de ce que devrait signifier le mot. (…) Quels sont les cas où se pose la question d’une définition de la complexité ? Il y a le souci de l’informaticien quant au temps que demande un ordinateur pour résoudre un type donné de problème. Afin d’éviter que ce temps demeure sous la dépendance de l’ingéniosité du programmeur, les scientifiques se concentrent sur le temps de résolution le plus court possible, ce que l’on désigne souvent sous le nom de « complexité calculatoire » du problème.

Cependant, ce temps minimal dépend encore du choix de l’ordinateur. Et cette « dépendance du contexte » est un obstacle permanent aux efforts pour définir les différentes sortes de complexité. Mais l’informaticien s’intéresse particulièrement à ce qui se passe dans un ensemble de problèmes qui ne diffèrent que par la taille ; en outre, sa préoccupation première est ce qui arrive à la complexité calculatoire lorsque la taille du problème ne cesse de croître, sans limite. Comment le temps de solution minimal peut-il dépendre de la taille quand celle-ci tend vers l’infini ? La réponse à ce genre de question peut être indépendante des détails de l’ordinateur.

La notion de complexité calculatoire a fait la preuve de son utilité, mais elle ne correspond pas étroitement à ce que nous entendons habituellement lorsque nous employons le mot complexe, dans des expressions comme « l’intrigue hautement complexe d’un récit » ou « la structure complexe d’une organisation ». Dans ces contextes, nous serions plus intéressés par la longueur du message qu’exigerait la description de certaines propriétés du système en question que par le temps que mettrait un ordinateur pour résoudre un problème donné. (…)

Mais jusqu’à quel niveau de détail faut-il compter ? (…) Lorsque l’on définit la complexité, il est toujours nécessaire de spécifier un niveau de détail où l’on s’arrête dans la description du système, ignorant les détails les plus fins. Les physiciens appellent cela l’ « agraindissement ». L’image qui a inspiré cette expression est probablement celle du grain en photographie. Lorsque le détail d’une photographie est si petit qu’il nécessite un très fort agrandissement pour être identifié, l’agrandissement peut faire apparaître les grains individuels qui composent la photographie. Au lieu d’une image claire du détail, on ne verra que quelques points n’en donnant qu’une représentation grossière. (…) Une fois établie l’importance de l’agraindissement, nous restons confrontés à la question de savoir comment définir la complexité du système à l’étude. (…) Au moins une manière de définir la complexité d’un système revient à utiliser la longueur de sa description. (…)

Si l’on définit la complexité en termes de longueur de description, ce n’est pas alors une propriété intrinsèque de la chose décrite. La longueur d’une description peut à l’évidence dépendre de qui (ou de ce qui) fait la description. (…) La longueur de la description variera en fonction du langage utilisé, et également de la connaissance et de la compréhension du monde que partagent les correspondants. (…) Et si la description est inutilement longue du seul fait d’un gaspillage de mots ? (…) Dans notre définition de la complexité, nous allons par conséquen nous intéresser à la longueur du plus court message possible décrivant un système. Tous ces points peuvent être inclus dans ce que l’on pourrait appeler « complexité brute » : la longueur du plus court message possible décrivant un système, à un niveau donné d’agraindissement, à quelqu’un d’éloigné, au moyen d’un langage, d’une connaissance et d’une compréhension que les deux parties partagent (et qu’elles savent partager) au préalable.

Il y a des manières familières de décrire un système qui ne sont en rien le plus court message possible. Si nous décrivons par exemple séparément les parties d’un système et que nous disons également comment le tout est composé de parties, nous aurons ignoré de nombreuses occasions de compresser le message ; comme d’utiliser les similitudes entre parties. Ainsi, la plupart des cellules d’un corps humain partagent les mêmes gènes et peuvent avoir bien d’autres traits en commun, tandis que les cellules d’un tissu donné peuvent présenter davantage de similitudes encore. C’est là quelque chose dont la plus courte description devrait tenir compte.

Le contenu d’information algorithmique

Certains spécialistes de la théorie de l’information utilisent une quantité qui ressemble beaucoup à la complexité brute, même si leur définition est plus technique et fait évidemment intervenir les ordinateurs. Ils envisagent une description à un niveau donné d’agraindissement, exprimée dans un langage donné, qu’ils encodent ensuite au moyen d’une procédure standard de codage en une chaîne de 1 et de 0. Tout choix d’un 1 ou d’un 0 s’appelle un « bit ». (…) C’est une chaîne de bits ou chaîne-message qui les intéresse.

La quantité qu’ils définissent se nomme « complexité algorithmique » ou « aléatoire algorithmique ». Ce mot d’ « algorithme » désigne aujourd’hui une règle, et par extension un programme, pour calculer quelque chose. Le contenu d’information algorithmique renvoie, comme nous allons le voir, à la longueur d’un programme informatique. (…)

Le contenu d’information algorithmique (CIA) a été introduit dans les années 1960 par trois auteurs travaillant indépendamment : le grand mathématicien russe Andrei N. Kolmogorov, un Américain, Gregory Chaitin, âgé de quinze ans seulement à l’époque, et un autre Américain, Ray Solomonoff. Tous trois présupposent un ordinateur universel idéal, considéré essentiellement comme ayant une capacité de stockage infinie (ou bien finie, mais susceptible d’acquérir autant de capacité supplémentaire que nécessaire). L’ordinateur est équipé d’un matériel et d’un logiciel précis. On considère ensuite une chaîne-message particulière, et l’on demande alors quels programmes auront pour effet que l’ordinateur imprime ce message pour cesser de calculer aussitôt après. La longueur du plus court de ces programmes est la CIA de la chaîne.

Nous avons vu que la subjectivité ou l’arbitraire sont inhérents à la définition de la complexité brute, ayant comme source l’agraindissement et le langage utilisés pour décrire le système. Dans le cas du CIA, de nouvelles sources d’arbitraire ont été introduites, à savoir la procédure particulière de codage qui transforme la description du système en une chaîne de bits, ainsi que le matériel et le logiciel associés à l’ordinateur.

Les spécialistes de la théorie de l’information ne se préoccupent guère de ces arbitraires, parce qu’ils s’intéressent d’ordinaire à des limites auxquelles l’arbitraire fini devient relativement insignifiant. Ils considèrent des suites de chaînes (de bits) semblables de longueur croissante, en étudiant comment se comporte le CIA lorsque la longueur approche de l’infini. (Ce qui nous rappelle comment les informaticiens traitent la complexité calculatoire d’une suite de problèmes similaires lorsque la taille du problème approche de l’infini.) (…)

Il est grand temps de tirer au clair ce qui distingue le contenu d’information algorithmique de l’information, telle que l’a étudiée par exemple claude Shannon, le fondateur de la théorie moderne de l’information. Fondamentalement, l’information a pour objet une sélection de possibilités, et trouve son expression la plus simple lorsque ces possibilités peuvent se réduire à une suite de choix binaires, chacun entre deux éventualités d’égale probabilité. Si vous apprenez, par exemple, qu’un lancer de pièce a donné pile au lieu de face, vous aurez appris un bit d’information. Si vous apprenez que trois lancers successifs ont donné pile, face et pile de nouveau, vous aurez acquis trois bits d’information. (…)

Remarquez l’emploi différent des chaînes de bits selon que l’on étudie le CIA ou l’information. Dans le cas du contenu d’information algorithmique, on considère une seule chaîne de bits (une longueur de préférence) et l’on mesure ses régularités internes par la longueur (en bits) du plus court programme ayant comme effet qu’un ordinateur standard imprime la chaîne pour s’arrêter aussitôt après. Dans le cas de l’information, en revanche, on doit considérer un choix entre toutes les différentes chaînes d’une longueur donnée. Si toutes sont également probables, leur longueur est le nombre de bits d’information.

On peut aussi avoir affaire à un ensemble de chaînes de bits, également probables par exemple, chacune avec une valeur de CIA particulière. Dans ce cas, il est souvent utile de définir une quantité d’information, déterminée par le nombre de chaînes, ainsi qu’une valeur moyenne de CIA calculée sur l’ensemble.

Compression et chaînes aléatoires

Le contenu d’information algorithmique a une très curieuse propriété. Pour l’examiner, nous devons d’abord considérer la « compressibilité » relative de différentes chaînes-messages. Devant une chaîne de bits d’une longueur donnée (une très longue, disons), on peut se poser la question de savoir quand la complexité algorithmique est basse et quand elle est élevée. Si une longue chaîne, sous forme de 110 répétés, peut être produite par un très court programme disant d’imprimer 110 un nombre défini de fois. Une chaîne de bits de ce genre a un CIA très bas, malgré sa longueur ; ce qui signifie qu’elle est hautement compressible.

A l’opposé, on peut démontrer mathématiquement que la plupart des chaînes de bits d’une longueur donnée sont incompressibles… Une telle chaîne a un CIA maximal pour sa longueur. Il n’existe aucune règle, aucun algorithme, aucun théorème pour simplifier la description de cette chaîne-message en permettant de l’exprimer par un message plus court. Elle porte le nom de chaîne « aléatoire » précisément parce qu’elle ne contient aucune régularité qui autoriserait sa compression. Le fait que le CIA est maximal pour les chaînes aléatoires explique son autre nom d’aléatoire algorithmique.

L’incalculabilité du CIA

La propriété curieuse du CIA est son incalculabilité. Bien que la plupart des chaînes de bits soient aléatoires, il n’y a aucun moyen de savoir exactement lesquelles le sont. En fait, nous ne pouvons pas être sûrs, en général, que le CIA d’une chaîne donnée n’est pas plus bas que nous ne le pensons. C’est pourquoi il se pourrait qu’il y ait toujours un théorème que nous ne trouverons jamais, un algorithme que nous ne découvrirons jamais, et qui permettraient de compresser davantage la chaîne. Plus exactement, il n’existe aucune procédure pour trouver tous les théorèmes qui permettraient de compresser davantage la chaîne. C’est ce qu’a prouvé il y a quelques années Greg Chaitin, dans un travail qui rappelle une partie du célèbre résultat de Kurt Gödel. (…)

Cette incalculabilité est sans doute une propriété embarrassante, mais il en est une autre qui nous retiendra d’utiliser le contenu d’information algorithmique pour définir la complexité. Malgré tout l’intérêt que présente le CIA en introduisant des notions aussi utiles que l’agraindissement, la compressibilité des chaînes-messages, et à la longueur d’une description produite par un système observateur, il a un défaut réel et sérieux que révèle son autre nom d’aléatoire algorithmique : le contenu d’information algorithmique est le plus grand pour les chaînes aléatoires. C’est une mesure de l’aléatoire, et l’aléatoire n’est pas ce que l’on entend d’ordinaire par complexité, que ce soit dans le langage de tous les jours, ou dans la plupart des usages scientifiques. Le CIA n’est donc pas la complexité réelle ou effective.

John D. Barrow dans « La grande théorie » :

« Donner un sens », une intelligibilité, aux choses, consiste à les découper à la bonne taille, les ordonner, trouver des régularités, des facteurs communs et des simples récurrences qui nous indiquent pourquoi les choses sont ce qu’elles sont et comment elles seront dans le futur. Cet acte de pensée prend maintenant figure de quête de compressibilité algorithmique (…) En pratique, l’intelligibilité du monde se réduit à sa compressibilité algorithmique. Nous pouvons remplacer les séquences de faits et les données de l’observation par des phases abrégées qui recouvrent le même contenu d’information. Ces abréviations sont souvent appelées « lois de la Nature ». Si le monde n’était pas algorithmiquement compressible, il n’existerait aucune loi simple. Au lieu d’utiliser la loi de la gravitation pour calculer les orbites des planètes, à tous les instants de l’histoire, nous devrions tenir le registre exact des positions planétaires ; cependant, ceci ne nous aiderait en aucune manière à prédire ce qu’elles seraient dans une seconde, un an ou mille ans. Le monde est potentiellement et réellement intelligible parce qu’à un certain niveau il se prête à la compression algorithmique. C’est pourquoi, fondamentalement, les mathématiques offrent une si bonne description du monde physique. C’est le langage le plus approprié que nous puissions proposer pour exprimer ces compressions algorithmiques.

Nous savons que le monde ne peut être indéfiniment comprimé de la sorte. Il existe des processus chaotiques particuliers incompressible, tout comme il existe des opérations mathématiques qui ne sont pas calculables. Cette allusion au désordre fait jaillir le spectre d’un monde totalement incompressible où les scientifiques seraient bibliothécaires plutôt que mathématiciens, cataloguant les faits les uns après les autres, sans relation.

Nous pourrions définir la science comme la recherche de la compression algorithmique du monde de l’expérience et la recherche d’une théorie unique et globale, la théorie de tout, en tant qu’expression ultime de la foi de quelques-uns en la possibilité de compression algorithmique de la structure essentielle de l’Univers. Mais nous reconnaissons aussi que l’esprit humain joue un rôle non trivial dans cette évaluation. Inextricablement liée à la compressibilité algorithmique du monde est la capacité de l’esprit humain d’effectuer des compressions. Nos esprits ont pris comme supports les éléments du monde physique et ont été « aiguisés », tout au moins partiellement, par le processus de sélection naturelle, pour devenir aujourd’hui « coupants ». Leur aptitude à censurer l’environnement et leur capacité de survie sont reliées de manière évidente à leur qualité de compresseur algorithmique. Plus le stockage et la codification de l’expérience naturelle de l’organisme est efficace et plus l’organisme peut écarter les dangers. Dans la phase la plus récente de l’histoire de l’ « homo sapiens », cette capacité a atteint de nouveaux sommets de sophistication. Nous sommes capables de penser la pensée elle-même. Non contents d’extraire des connaissances au moyen de l’expérience, partie intégrante du processus évolutionniste, nous disposons de capacités mentales suffisantes pour simuler ou imaginer le résultat vraisemblable de nos actes. Plus précisément, nos esprits génèrent des simulations d’expériences passées dans le contexte de situations nouvelles, ce qui requiert un cerveau passablement exercé. Il est clair que les capacités mentales doivent passer un certain seuil pour effectuer une compression algorithmique digne de ce nom. D’abord, nos sens doivent être assez développés pour accumuler une quantité significative d’informations sur l’environnement. On peut comprendre que ce ne soit pas le cas : s’ils étaient si fins qu’ils puissent consigner la plus petite information possible au sujet de tout ce que nous voyons et entendons – toutes les configurations atomiques seconde après seconde -, alors nos esprits seraient surchargés d’informations. Le traitement de l’information serait plus lent, le temps de réaction plus long, et toutes sortes de circuits additionnels seraient requis pour passer au crible les données et composer des images des différents niveaux d’intensité et de profondeur de la réalité.

Le fait que nos esprits abandonnent toute ambition de collection et de traitement total de l’information a pour conséquence que le cerveau effectue une compression algorithmique de l’Univers qu’il soit ou non effectivement compressible. En pratique, le cerveau opère par troncature. Nos sens ne sont pas capables que de se saisir d’une quantité finie d’observations sur le monde, ceci à un certain niveau de résolution et de sensibilité. Même quand nous nous aidons des senseurs artificiels, tels les microscopes et les télescopes, pour élargir la gamme de notre expérience sensible, des limites fondamentales ne peuvent manquer de se manifester. L’analyse de ce processus de troncature lui-même constitue, dans de nombreux cas, une branche des sciences appliquées. Les statistiques en sont un bon exemple. Lorsque nous étudions un phénomène étendu et complexe, nous devons essayer de comprimer algorithmiquement l’information disponible en l’échantillonnant de manière sélective. (…)

Par expérience, nous appelons aléatoire une séquence s’il n’existe aucune compression possible de son contenu d’information. Au vrai, il est impossible, par principe, de prouver qu’une séquence donnée est aléatoire, bien qu’il soit clairement possible de prouver qu’elle ne l’est pas, simplement en exerçant une nouvelle compression. Aussi, ne sera-t-il jamais possible de prouver que la somme des informations contenues dans toutes les lois de la Nature est exprimable sous une forme plus succinte que nous pourrions appeler le « secret de l’Univers ». Bien sûr, il se pourrait que n’existe aucun secret de la sorte, et même s’il existait, il se pourrait que son contenu d’information soit enseveli si profondément qu’il faille un temps très long (ou même infini) pour en extraire l’information par le calcul. (…)

Les propriétés synthétiques sont des propositions qui font sens sans être pour autant analytiques. Elles disent des choses qui ne peuvent être vérifiées en regardant simplement le monde. Elles ne sont pas logiquement nécessaires. Elles affirment quelque chose au sujet du monde, alors que les propositions analytiques n’affirment rien. (…)

Ce dilemme s’étend au problème du rôle des mathématiques en physique. Si tous les énoncés mathématiques étaient analytiques – c’est-à-dire conséquences tautologiques d’un certain ensemble de règles et d’axiomes – alors il faudrait faire face à la contradiction suivante : essayer de déduire des énoncés synthétiques sur le monde à partir d’énoncés mathématiques purement analytiques. En pratique, quand les conditions initiales ne sont pas spécifiées par une forme d’autocohérence, elles fournissent une sorte d’élément synthétique qui vient s’ajouter à toute structure mathématique analytique définie par des équations différentielles. (…)

Deux courants de pensée dans la science contemporaine, après avoir longtemps évolué en parallèle, cherchent à se rejoindre. Les circonstances de la convergence de ces fleuves détermineront lequel des deux sera considéré comme l’affluent de l’autre. D’un côté, se placent les physiciens convaincus que les « lois de la Nature », empreintes de symétrie, constituent le socle fondamental de la logique de l’Univers. Ces symétries vont de pair avec l’image d’un espace et d’un temps continus et indivisibles. A l’opposé, de l’autre côté, s’érige, au détriment de la symétrie, une image du calcul abstrait qui le désigne comme la notion la plus fondamentale de toutes. Cette image de la réalité prend sa source dans la logique du discontinu. Reste à décider lequel est le plus fondamental de la symétrie ou du calcul. (…)

Conclure que le fait de se prêter au calcul est l’aspect le plus fondamental de la réalité équivaudrait à supposer que l’Univers ne fait que des choses calculables. La signification des manifestations mathématiques de l’Univers serait laissée à l’appréciation des constructivistes. C’est le prix à payer pour avoir abandonné le continuum, avoir fait appel aux seuls aspects cacluclables du monde et les avoir haussés au rang d’explication de la globalité. Toutefois, nous avons découvert de nombreuses opérations mathématiques non calculables, ce qui amène les physiciens à jeter quelques soupçons sur la partie des mathématiques couramment mise à contribution dans la description du monde. (…) Donc, si au niveau le plus fondamental, les choses étaient discrètes, nous nous engagerions dans les sables mouvants du non-calculable. (…)

« Pourquoi le monde est-il mathématique ? » demandons-nous. Mais, à la réflexion, la plupart des choses que nous rencontrons dans la vie de tous les jours sont tout sauf mathématiques. Est confiée au mathématicien la seule description du suquelette du monde caché sous les apparences, un monde plus simple que le monde quotidien. Nous ne trouvons rien de mathématique dans les émotions et les jugements, la musique ou l’art. Comment, dès lors, parler de « théorie de tout », poursuivre le rêve des mathématiciens confiants dans le fait que toute diversité s’évapore pour ne laisser subsister rien d’autre que le nombre et tracer une ligne qui sépare les phénomènes subtils, intrinsèquement non mathématiques de ceux qui sont du registre de la « théorie de tout » ? Que sont les choses qui ne peuvent pas être incluses dans la conception physique de « tout » ? (…)

Le logicien américain John Myhill a proposé d’étendre les conclusions de Gödel, Church et Turing, s’agissant de la portée et des limitations des systèmes logiques. Les aspects les plus accessibles et quantifiables du monde ont la propriété d’être calculables. (…) Sans les restrictions de Turing et de Church sur la compatibilité, chaque propriété du monde serait calculable. (…) L’aspect restrictif des mathématiques et de la logique écarte des propriétés prospectives du danger de tomber sous les coups de la technique (…) Aucune évocation non poétique de la réalité ne peut être complète. (…) Aucune formule ne peut délivrer la vérité entière, toute l’harmonie, toute la simplicité »

Qu’est-ce que la théorie de l’information ?

Philosophie de la théorie de l’information

Le concept d’information en sciences

Qu’est-ce que la théorie de l’information ?

Léon Brillouin, inventeur de la théorie de l’inforamtion

Qui est Léon Brillouin

Who was Léon Brillouin

Naissance de la théorie de l’information

http://www.globenet.org/transversales/grit/informat.htm

Machine-esprit

Information Theory

Science and Information Theory, Léon Brillouin

Elements on Information Theory

Information Theory

A First Course in Information Theory

Quantum Information Theory

Quantum Biological Information Theory

Information Processing and Biological Systems

Information in Biological Systems

Information Theory and Evolution

Information Theory and Statistical Theory

The Kolmogorov Legacy in Physics

Information Theory in Analytical Chemistery

Entropy and Information Theory

Un message, un commentaire ?

modération a priori

Ce forum est modéré a priori : votre contribution n’apparaîtra qu’après avoir été validée par un administrateur du site.

Qui êtes-vous ?
Votre message

Pour créer des paragraphes, laissez simplement des lignes vides.