L’entropie de l’univers et la vidéo numérique

29 November 2011

Cet article a été écrit en collaboration fructueuse avec Alexandre Mouillé !


La vidéo numérique, godzilla d’information


Si vous avez déjà essayé d’acheter des câbles vidéo numériques DVI ou HDMI, ceux qui relient par exemple votre lecteur DVD à votre téléviseur pour transmettre les images, vous avez sans doute étés refroidis par leurs prix, de l’ordre de 15 à 20 euros le mètre. Ces prix prohibitifs ne sont pas qu’un moyen pour les constructeurs de faire leurs marges : ils s’expliquent par la quantité phénoménale d’informations qui transite par un câble vidéo, et qui impose au câble un cuivre de qualité exceptionnelle. Pourquoi la vidéo numérique moderne est-elle d’une gourmandise en information telle qu’elle a un impact sur la production de cuivre au Chili ?

 

Un calcul simple permet de comprendre l’ampleur de sa gloutonnerie. Un flux vidéo est composé de 60 images par seconde – la fréquence à laquelle l’oeil humain ne parvient plus à distinguer les saccades. Chacune de ces images est une photo, dont chaque pixel s’affiche individuellement sur un écran. Sachant qu’il faut un octet par couleur et par pixel (rouge, vert ou bleu), qu’il y a 1920 x 1080 pixels sur un écran HD standard, cela fait donc plus de 373 millions d’octets à faire transiter chaque seconde par le câble vidéo !

 

Si nos flims et vidéos étaient effectivement stockés sous cette forme brute, un CD-ROM ne pourrait même pas en contenir deux secondes, et un DVD, pas plus de 13 secondes. Même un Blu Ray de 50 Go, ce mastodonte, ne pourrait guère en stocker plus de deux minutes. Et c’est sans compter ce que l’industrie cinématographique nous prépare pour la suite : la vidéo stéréoscopique, communément appelée 3D, double encore ce chiffre puisqu’il y a deux images à transmettre, une pour l’oeil gauche, l’autre pour l’oeil droit. Quant à certains écrans 30 pouces ils offrent déjà des un nombre de pixels deux fois supérieur et les projecteurs de cinéma à la norme 8k afficheront encore dix sept fois plus de pixels !

 

La compression vidéo


Il est donc difficile de stocker et transmettre ce déluge d’informations qui compose la vidéo sous sa forme brute. Depuis l’invention de la vidéo numérique, les limitations techniques des supports qui servent à la stocker (disque dur, CD, DVD…) obligent les informaticiens à trouver des solutions pour décrire une vidéo numérique d’une manière moins gourmande en information en utilisant des algorithmes mathématiques complexes : c’est la compression vidéo.

 

La première chose à laquelle on pense lorsqu’il s’agit gagner d’être économe pour des images animées, c’est de ne pas décrire la vidéo pixel par pixel pour chacune des images qui la compose, mais de considérer chaque image successive est comme une petite modification de l’image précédente. Plutôt que de de décrire chaque pixel de la nouvelle image, il est bien plus rapide de dire que tel bloc de pixel s’est déplacé à cause d’un mouvement de la caméra ou des personnages en mouvement par rapport au décor fixe. Lorsque cette technique de compression est utilisée, les vidéos sont stockées sous la forme d’images clef, suivies d’instructions de modification pour les images suivantes qui lui sont liées. Cela permet des gains énormes de place, mais c’est surtout la compression de ces images clef et des informations de modification qui permettent ce prodige.

 

Mesurer la densité d’information : l’entropie de Shannon


Avant de compresser ainsi un film pour le faire tenir, par exemple, sur un DVD, il faut pouvoir mesurer l’information qui le compose et pouvoir estimer ainsi les économies que l’on peut faire. Si, dans la nature, l’information n’est codée ni en bits ni en octets, la physique statistique permet tout de même de la quantifier. En 1948, le mathématicien Shannon démontre que l’on peut quantifier l’information en utilisant les probabilités : plus un évènement est improbable, plus il est riche en information. A l’inverse, un évènement certain de se produire ne constitue pas une information.

 

Le concept d’entropie, qui mesurait jusqu’alors en physique statistique le degré de désordre énergétique d’un sytème au niveau microscopique, peut désormais mesurer plus largement sa densité d’information : c’est “l’entropie de Shannon”. L’entropie de Shannon est un outil si large qu’il peut tout aussi bien mesurer la densité d’information contenue dans une suite de symboles, comme un fichier informatique, une vidéo ou tout simplement un texte.

 

La Pléiade sur une feuille de chou


Imaginons que nous souhaitions compresser un texte sans perte et qu’il s’agisse d’un roman. Cela revient à nous demander comment l’écrire avec le moins de symboles possible, tout en conservant son sens absolument intact (ce que l’on appelle une compression “sans perte”).  Notre roman est écrit en français, dont l’alphabet est composé de 26 lettres, chacune utilisant un octet (c’est à dire 8 bits) pour être décrite informatiquement. En français, le symbole statistiquement le plus courant est l’espace, le plus présent est le E, et le moins présent, le W : plutôt que d’utiliser les huit codes binaires pour encoder chaque lettre de manière égalitaire, nous pouvons, pour gagner de la place, utiliser un code plus court pour encoder l’espace et le E que pour le W. On réalise ainsi des gains importants en nombre de bits utilisés. Et surtout, nous faisons une découverte d’importance : la compression de notre roman n’a été possible que parce que les lettres utilisées par l’auteur n’y sont pas réparties de manière uniforme !

 

Bien sûr, il est possible de gagner davantage de place. Dans un roman, les lettres ne se succèdent pas n’importe comment : les successions les plus courantes sont “ES”, “LE”, “EN”, “DE”, soit un E avec une consonne. De même, certains mots comme les conjonctions, reviennent très souvent. On peut donc simplifier ces successions courantes comme s’il s’agissait de lettres ou en leur consacrant un codage particulier. Le fait que ces schémas grammaticaux et orthographiques reviennent souvent facilite ainsi grandement notre algorithme de compression : plus ceux-ci sont répétitifs, plus l’entropie de Shannon, c’est à dire la densité d’information, est faible. Si notre roman ne faisait que répéter la même phrase sur 10 000 pages, son entropie de Shannon serait très basse, et notre compression évidente : il suffirait, avec quelques symboles, d’écrire “cette phrase se répète sur 10 000 pages”. La compression est à l’inverse bien difficile lorsque les symboles de base sont répartis de manière plus uniforme dans le texte. La densité d’information est alors déjà grande et il sera difficile de l’améliorer.

 

Compresser un signal revient à maximiser son entropie


Il existe de nombreuses autres méthodes de compression sans perte, qui ont toutes en commun de maximiser l’entropie de Shannon. La compression maximale théorique est atteinte lorsque celle-ci est maximale, c’est à dire que les symboles du signal une fois compressé apparaissent tous de manière uniforme et équiprobable. La nature d’un objet à compresser (texte, programme, photo, ou vidéo) influe bien sûr sur son entropie initiale, mais on sait qu’en moyenne ces méthodes permettent de diviser par deux leur poids : on parle alors d’un taux de compression de deux. C’est encore largement insuffisant lorsque l’on parle de vidéo.

 

Pensez à la neige que l’on voit lorsque l’on allume un bon vieux téléviseur cathodique et qu’on le règle sur une fréquence inoccupée. On a alors des images à l’entropie maximale : chaque pixel peut prendre une couleur totalement indépendante du pixel voisin. Un caméscope numérique serait d’ailleurs totalement incapable d’enregistrer précisément une telle chose, contrairement à un vieux magnétoscope analogique sans compression. En revanche, une image figurative, qui représente un paysage ou des objets, possède une entropie beaucoup plus faible, car les pixels représentant un même élément du décor sont liés. Il y a par exemple, peu de variations dans les pixels qui représentent une voiture bleue, car de proche en proche, celles ci ne traduisent que les petites variations de l’angle que forme la surface avec les sources de lumières ou les petites variations dues au grain de la surface.

 

Le cerveau, cette machine à compresser


Grâce aux liens de causalité présents dans les paysages qui nous entourent et qui figurent donc sur nos vidéos, on peut donc atteindre des taux de compression bien plus élevés dans la vidéo que dans le cas de notre roman. En connaissant certaines règles et le contexte dans lequel cela a été observé, il est possible de reconstituer beaucoup d’informations. C’est d’ailleurs ce que fait notre cerveau à chaque instant sans que nous nous en rendions compte : il compresse, simplifie ce que nous observons en formes, et effectue des rapprochements par rapport à ce qu’il a déjà rencontré pour éviter de nous surcharger en information. En voici une illustration connue :

 

Une étdue de l’uinveisrté de Cmabirdge a détmnoré que l’orrde des letrets au sien d’un mot aviat peu d’imoprtance, du menomt que les premières et drneièers lettres étainet à leur plcae, les lttrees peunevt êrte mélangeés mias on arrive qanud mmêe à lrie le texte sans prblèome.

 

D’une manière générale, le cerveau n’enregistre pas tout le déluge d’informations auquel il est soumis : il sait en extraire l’essentiel, les informations causales qui ont un sens intelligible, pour reconstituer ensuite quelque chose de cohérent. Ces mécanismes sont à l’origine de la plupart des illusions d’optique.

 

Nous avons tous des souvenirs incluant des arbres, et pourtant nous serions incapables de décrire ces arbres parfaitement, parce que la forme et la répartition de leurs branches sont  des combinaisons uniques parmi une infinité de possibles. Pourtant, nous sommes tous capables d’inventer un arbre quelconque en le dessinant, parce que nous avons intuitivement compris la logique de leur structure.

 

Si la vidéo peut être compressée, c’est parce que le monde qui nous entoure est pauvre en entropie


Le second principe de la thermodynamique stipule qu’une fois qu’une information est générée dans l’univers, elle est indélébile. La densité d’information de l’univers augmente donc en permanence, et l’univers tendrait donc nécessairement vers une “mort thermique” à l’entropie maximale : il arrivera un jour où il ne sera plus constitué que d’un gaz parfaitement uniforme, saturé d’informations au niveau microscopique, où toute écriture d’information nouvelle serait impossible. Heureusement, nous vivons dans un environnement relativement pauvre en entropie, qui produit des images faciles à simplifier et a influencé l’évolution de notre cerveau. Celui ci a atteint un tel niveau d’adaptation qu’au delà de ses capacités d’analyse et de tri, il est capable de générer des images ex-nihilo, comme lorsqu’il crée des décors grandioses et fabuleux lors de certains rêves, ou qu’il réécrit nos souvenirs, comme l’a démontré les études sur le fonctionnement de la mémoire.

 

En renonçant à décrire l’ensemble des possibles d’une scène ou d’une image et en se limitant au familier, on écarte l’immense majorité des combinaisons et on obtient un gain énorme pour la compression. Le nombre d’images représentant quelque chose d’intelligible est si faible en comparaison de l’ensemble des images possibles qu’il est probable que l’on observe à l’avenir encore de grandes améliorations dans les méthodes de compression. Ces méthodes regorgent d’ingéniosité et explorent beaucoup d’idées différentes, mais elles ont toutes en commun un principe : rendre le visuellement probable moins gourmand en codage en renonçant à l’improbable.

Répondre