Il ne nous reste plus qu'à montrer que notre formule générale est en accord avec notre formule spéciale, qui considérait que tous les messages avaient la même probabilité. Je vais écrire la formule générale une nouvelle fois. Si x est une source de message, alors le taux d'information de cette source est égal à la somme de i = 1 jusqu'à m, c'est-à-dire que nous allons faire la somme de tous ces termes de la probabilité du message i, multipliée par le log en base 2 de la probabilité du message i. C'était la formule originale. Maintenant, que se passe-t-il si tous les messages ont la même probabilité? Cela signifie que les probabilités sont égales à 1/m. Donc, si il y a deux messages, chacun a une probabilité de 1/2. S'il y en a 3, chacun a une probabilité de 1/3, etc. Dans ce cas-ci, H(x) = moins la somme de i = 1 à m p^i est égal à 1/m, fois log en base 2 de 1/m, et si nous faisons cela m-fois, nous allons avoir ceci plus ceci plus ceci, m fois. On peut donc se débarrasser du terme 1/m. Ce qui revient à moins le log en base 2 de 1/m, c'est-à-dire simplement le log en base 2 de m, en suivant les règles de logarithme, et c'est ce que nous avions dans notre cas spécial, où toutes les probabilités étaient égales. Bref, la raison pour laquelle Shannon voulait mesurer le taux d'information était de pouvoir codifier, de la meilleure manière, les signaux téléphoniques. Il a montré que le taux d'information, tel que nous l'avons défini, donne le nombre moyen de bits nécessaires pour encoder, par exemple, un signal envoyé sur une ligne téléphonique depuis une source, suivant une codification optimale. L'article original de Shannon, qui a été publié sous forme de livre, montre cela avec toute la rigueur mathématique. L'idée est donc que si vous avez un ensemble de messages, avec une certaines probabilités, vous pouvez obtenir le nombre optimal de bits nécessaires pour encoder chaque message en moyenne. Cela nous donne finalement le taux de compression possible d'un texte. Plus le taux d'information est haut, moins il peut être compressé. Si vous vous intéressez pour ce sujet, vous pouvez chercher sur Google la notion de codage de Huffman, qui montre comment faire une compression optimale. Je ne vais plus en parler dans ce cours, mais c'est un domaine intéressant et important qui a affecté notre habilité à utiliser des technologies comme le téléphone, internet, et d'autres. C'est donc extrêmement important. Enfin, je voudrais dire quelques mots à propos de la notion de contenu dans le taux d'information de Shannon. Vous avez probablement remarqué ceci: bien qu'il traite de probabilités et du nombre de messages en provenance d'une source, il n'a rien à voir avec le contenu de ces messages, le sens de l'information, ou sa fonction pour l'envoyeur ou le récepteur. Le contenu de l'information nous vient de son traitement, c'est-à-dire ce que l'on fait en envoyant ou en recevant un message. Nous en parlerons plus en détail dans l'unité 7, quand nous aborderons les modèles d'auto-organisation, et la manière avec laquelle les systèmes auto-organisés traitent l'information pour en extraire la signification.