Dans cette vidéo, je vais vous montrer comment calculer le taux d'information de Shannon.

D'abord, voyons l'analogie entre l'entropie de Boltzmann et l'information de Shannon.

Shannon a tiré sa description de l'information des mécaniques statistiques de Boltzmann.

Nous définissons un "micro-état" comme la configuration détaillée des composants d'un système.

Dans une machine à sous, il s'agirait de la configuration de chaque fenêtre:

Par exemple, "pomme, poire, cerise".

Un "macro-état" est une série de micro-états.

Par exemple, "trois égaux", ou "à peine une pomme".

L'entropie S définit tous les micro-états comme également probables.

Voici l'équation, gravée sur la tombe de Boltzmann.

Elle dit que l'entropie d'un macro-état en particulier est égale à k,

la constante de Boltzmann, fois le logarithme de W.

Voici le log. Il utilisait le logarithme naturel.

Et W est égal au nombre de micro-états correspondant à ce macro-état.

K nous offre un moyen d'assigner des unités,

mesurées en joules par Kelvin.

Mais dans notre cas, on peut dire que k est égal à 1.

Cela se fait parfois pour calculer l'entropie.

Cela nous donne simplement la mesure en différentes unités,

mais on peut l'utiliser pour comparer les résultats.

Revenons à notre machine à sous.

Rappelez-vous le quiz.

Nous avions demandé combien de micro-états permettaient d'aboutir au macro-état "Gagné",

"trois égaux", et c'était 5.

Et combien de micro-états menaient à un macro-état "Perdu", et c'était 120.

Donc, d'après Boltzmann, si on considère que k, la constante, est de 1, alors

nous calculons le S de ce macro-état - appelons S le macro-état "Gagné",

S est égal au log naturel de 5, c'est-à-dire environ 1,61.

Et le S de l'état "Perdu" est égal au log naturel de 120, soit environ 4,79.

La raison pour laquelle Boltzmann a utilisé le log naturel était d'obtenir une certaine marge.

Généralement, on parle de systèmes qui ont un grand nombre de micro-états,

qui donnent lieu à certains macro-états.

Le log naturel permet de réduire ces très grands nombres.

Mais ne vous inquiétez pas à propos de ces détails.

Vous pouvez voir que l'entropie de Boltzmann de ce macro-état

est bien plus petite que l'entropie de Boltzmann de l'autre,

C'était bien notre intuition.

Revenons maintenant à notre analogie.

Le taux d'information de Shannon d'un micro-état est un message,

qu'il s'agisse d'un symbole, d'un nombre ou d'un mot.

Et le taux d'information de Shannon d'un macro-état est une source,

c'est-à-dire une série de messages possibles,

avec la probabilité d'envoyer chacun d'entre eux.

Comme nous l'avons fait pour l'entropie de Boltzmann,

Disons ici la probabilité est égale pour tous les messages, M étant le nombre de messages.

Nous pouvons définir H, le taux d'information de Shannon de la source de messages,

comme étant égale au log en base 2 de M, ou log en base 2 du nombre de messages.

Le log en base 2 nous permet de mesurer le contenu en bits-par-message.

Voici notre exemple d'un bébé d'un an qui ne dit que "da da da da".

Il n'y a qu'un message ici,

et le taux d'information de Shannon est égal au log en base 2 de 1.

2 élevé à la puissance 0 est égal à 1. Le taux d'information est de 0.

Comme on s'y attendait. Il n'y a rien d'imprévisible, aucune surprise.

Mais si on considère qu'au lieu de "da da da", le bébé dit "da ba ma" - soit trois messages.

Dans ce cas, M serait égal à 3 et H serait égal au log en base 2 de 3.

Soit, d'après ma calculatrice, environ 1,58.

Ce qui nous donne un taux un petit peu plus élevé

que lorsqu'il n'y a qu'un seul message.

Dans notre exemple de pièce de monnaie, pile ou face, il y a deux messages.

Donc le H d'une pièce est égal au log en base 2 de 2, c'est-à-dire 1.

Le taux d'information est de 1, soit le même taux chaque fois qu'il y a deux choix:

pile ou face, 0 ou 1, oui ou non, avec une probabilité égale.

Autre exemple du même type, le taux d'information d'un dé:

M est égal à 6 - il y a 6 messages possibles, un pour chaque face,

donc nous avons le log en base 2 de 6, soit approximativement 2,58 - en bits.

Je vous expliquerai plus tard ce que cela représente vraiment,

en terme de codage ou de mémoire informatique.

Pour le moment, suivons notre intuition que cela correspond au grand taux d'information

vu jusqu'ici, car il y a 6 différents messages.

Je vais écrire une formule plus générale.

Dans la formule précédente, nous avions proposé que tous les messages avaient la même probabilité,

mais souvent ce n'est pas le cas: il y a différent messages avec différentes probabilités -

par exemple, une pièce faussée ou simplement, une personne qui parle

et dont les mots ne sont pas tous aussi probables les uns que les autres.

Donc la formule générale - celle que Shannon lui-même a écrite - dit que

M est le nombre de messages possibles, et que chacun d'entre eux a une certaine probabilité.

Nous appellerons p^i la probabilité p d'un message i, l'un des messages M.

Ce n'est qu'un nom pour la probabilité du message i.

La formule de Shannon dit que la probabilité de cette source de message -

voici le symbole pour la somme, il signifie qu'on va faire la somme de tous les éléments -

pour tout message i, par rapport au nombre total de messages,

est égal au log en base 2 de la probabilité fois la probabilité.

Cela correspond à une moyenne pondérée par la probabilité.

Nous y mettons un signe négatif parce que ces probabilités sont toutes des fractions,

et le log d'une fraction est négatif.

Donc on y met le signe négatif pour compenser. Vous allez voir les exemples.

Si vous ne comprenez pas cette formule, soyez patients. Vous allez voir comme cela fonctionne dans la pratique.

Disons que nous avons une pièce faussée,

et que la probabilité d'avoir face n'est plus 1/2, mais disons, 0.6.

Et la probabilité d'obtenir pile est de 0.4.

Quel est le taux d'information?

Écrivons la formule: le taux d'information d'une pièce faussée

est égal à moins la somme de deux composants,

soit 0.6 fois log en base 2 de 0.6 plus 0.4 fois log en base 2 de 0.4.

Ce qui, d'après ma calculatrice, équivaut plus ou moins à 0.971.

Donc c'est un résultat plus bas qu'avec une pièce normale, qui avait un taux d'information de 1.

Cela est dut au fait qu'elle est plus prévisible:

il y a plus de chances d'avoir face que pile.

Nous pouvons faire quelque chose de plus général, et voir un exemple textuel.

Supposons que nous avons un texte, quel sera son taux d'information?

Il y a plusieurs manières de calculer cela,

et on le mesure généralement comme un indice de complexité, par exemple.

Dans notre cas, je vais observer la fréquence des différents mots

comme une mesure de leur probabilité.

Pour chaque mot, je vais écrire le mot, sa fréquence,

et ce que je vais appeler sa fréquence relative.

Le mot "to" apparaît deux fois, "to be or not to be",

Mais il y a 6 mots: la fréquence relative est donc de 2/6.

De six mots, il apparaît 2 fois.

"Be" apparaît aussi deux fois, "or" n'est là qu'une seule fois, "not" aussi.

Considérons que ces fréquences relatives sont leur probabilités.

On peut dire que le taux d'information de ce texte est égal à moins,

et nous allons faire la somme de chaque message, c'est-à-dire, chaque mot,

sa probabilité multipliée par le log en base 2 de sa probabilité,

On le fait pour chaque mot...

Ce qui équivaut à environ 1.9.

C'est une manière de calculer le taux d'information d'un bout de texte.

On en verra un peu plus dans les exercices.