En este video les voy a mostrar

cómo calcular el contenido de información

de Shannon.

Primero, miremos la analogía

entre la entropía de Boltzmann

y la información de Shannon

Shannon obtuvo su idea,

para caracterizar información,

de la mecánica estadística de Boltzmann

Recuerden que definimos

la noción de micro-estado como una

"configuración detallada

de los componentes de un sistema"

En el ejemplo de la máquina de juegos,

sería una configuración de las ventanas

como manzana-pera-cereza

Y un macro-estado es una

"colección de microestados",

como "tres iguales" o

"exactamente una manzana"

Y la entropía S,

asume que todos los micro-estados

son igualmente probables

y aquí está la ecuación,

tallada en la tumba de Boltzmann,

que dice que la entropía

de un macro-estado en particular

es igual a k (la constante de Boltzmann)

veces el logaritmo de W

aquí este logaritmo "log",

él usó esto para referirse

al logaritmo natural

y W es el número de micro-estados

que corresponden a este macro-estado

k nos da una forma de asignar unidades

medida frecuentemente

como "Joules por Kelvin"

pero para nuestros objetivos,

podemos asumir que k es igual a 1

asumamos eso, las personas hacen eso

en verdad, para calcular la entropía a veces

y nos da la entropía en diferentes unidades

pero podemos usarla para comparar entropías

entonces, por ejemplo,

volvamos a nuestra máquina de juegos

Recuerden nuestro quiz,

donde preguntamos cuántos micro-estados

generan el macro-estado "ganar"

los tres iguales

y ése era 5

y cuántos micro-estados

generan el macro-estado "perder"

y ese era 120

Entonces, de acuerdo a Boltzmann,

si asumimos que k,

la constante de Boltzmann,

es 1, entonces tenemos S,

este macro-estado,

llamemos esta S, macro-estado "ganar"

es igual al logaritmo natural de 5

que es alrededor de 1.61

y S de "perder"

es igual al logaritmo natural de 120

que es alrededor de 4.79

y la razón por la que Boltzmann usó

el logaritmo natural aquí

fue para estar dentro

de cierto rango de números

Usualmente estamos hablando de sistemas

con un número enorme de micro-estados

que dan origen a macro-estados particulares

y el logaritmo natural fue una forma de escalar

estos números grandes

pero no necesitan preocuparse de los detalles

pero pueden ver que la información,

perdón, la entropía,

la entropía de Bolzmann de este macro-estado

es bastante menor que

la entropía de Bolzmann de este macro-estado

que era nuestra intuición

Ahora, volviendo a nuestra analogía,

la versión de micro-estado

de la información de Shannon

es un mensaje, un símbolo,

número o palabra

y la versión de macro-estado

de la información de Shannon

es un emisor, una colección o set

de mensajes con alguna probabilidad

de mandar cada mensaje posible

Ahora, de la misma forma que lo hicimos

para la entropía de Boltzmann,

vamos a asumir aquí que todos los mensajes

son igualmente probables

con M siendo el número de mensajes.

Ahora podemos definir H,

el emisor del contenido

de información de Shannon,

como siendo igual al logaritmo de base 2 M

que es el logaritmo en base 2

del número de mensajes

El logaritmo en base 2 nos permite

medir el contenido de información

en bits por mensaje.

Aquí está nuestro ejemplo del bebé de 1 año

que sólo dice "Da, Da, Da, Da"

así que sólo hay un mensaje aquí y

nuestro contenido de información de Shannon

es igual al logaritmo en base 2 de 1

2 elevado a la potencia de 0 es 1

así que el contenido de información es 0

que va con nuestra intuición,

no hay imprevisibilidad, no hay sorpresa

Ahora imaginen que en vez de "Da, Da, Da"

nuestro bebé dijera "Da, Ba, Ma"

esos son 3 mensajes,

si ese fuera el caso,

entonces M sería igual a 3

y H sería igual a al logaritmo en base 2 de 3

que, según mi calculadora, es cerca de 1.58

así que eso nos da bastante más

contenido de información

que cuando hay sólo un mensaje

En el ejemplo de la moneda justa,

cara o sello, hay dos mensajes,

así que H de la moneda justa

es igual al logaritmo en base 2 de 2

que es igual a 1,

así que el contenido de información aquí es 1

que siempre es el contenido de información

si tenemos dos alternativas

cara o sello, cero o uno, sí o no,

con igual probabilidad

un ejemplo más de este tipo,

el contenido de información de un dado justo

es igual, bueno, aquí M es igual a 6

hay 6 posibles mensajes,

uno por cada lado del dado

así que es igual al logaritmo en base 2 de 6,

que es aproximadamente igual a 2.58

y eso es en bits.

Les explicaré más adelante

qué representa esto

en términos de codificar o calcular memoria

pero por ahora va con nuestra intuición

de que esto tiene

el mayor contenido de información

que hemos visto hasta ahora

porque hay 6 mensajes distintos

Ahora vamos a escribir una fórmula más general

para la fórmula anterior, asumimos

que todos los mensajes

tenían la misma probabilidad

pero frecuentemente ese no es el caso

hay diferentes mensajes

con diferentes probabilidades

tenemos una moneda trucada

o, más realísticamente,

tenemos una persona que habla

y las palabras que salen de su boca

no van a ser igualmente probables

Una fórmula más general,

y esta es la fórmula que Shannon escribió,

dice deja M

ser el número de mensajes posibles,

y ahora vamos a asignar una probabilidad

para cada mensaje,

entonces vamos a llamar

la probabilidad del mensaje i,

uno de los mensajes M, p sub i

este es sólo un nombre para la probabilidad

dada al mensaje i

y la fórmula de Shannon dice que

la probabilidad del emisor,

bueno, este es el símbolo de sumatoria

que va a sumar todas las diferencias

para cada mensaje i

hasta el número total de mensajes,

este log en base 2 de la probabilidad

veces la probabilidad

entonces esto es como tomar

un promedio ponderado

ponderado por la probabilidad

y ponemos un símbolo menos aquí

porque estas probabilidades son fracciones

y el logaritmo de una fracción

va a ser negativo

así que ponemos el símbolo negativo aquí

para contra restar ese negativo.

Veremos eso en un par de ejemplos.

Ahora, si no entienden esta fórmula

sean pacientes, porque les mostraré

cómo funciona en la práctica

Asumamos ahora que tenemos

una moneda trucada

y que la probabilidad de cara

ya no es la mitad, sino .6

y la probabilidad de sello es .4

cuál es el contenido de información de esto?

Escribamos nuestra fórmula

H, el contenido de información

de nuestra moneda trucada,

es igual a menos la sumatoria

de ambos componentes

que es .6 veces el logaritmo en base 2 de .6

más .4 veces el logaritmo en base 2 de .4

que en mi calculadora se aproxima a .971 bits

Así que esto es

un componente de información

menor que la moneda justa,

que tenía un componente de información de 1 bit

y eso es porque esto es más predecible

cara es más probable de salir que sello

Ahora puedo hacer algo un poco más general

y ver un ejemplo de contenido de información

de un texto.

Supongamos que tenemos un texto,

mi pregunta es cuál es

el contenido de información de ese texto

En verdad hay varias formas de calcular eso

y las personas calculan

el contenido de información de un texto

como una medida de su complejidad,

por ejemplo,

pero la forma en que lo haré es

mirar la frecuencia de las diferentes palabras

como una medida de la probabilidad

para cada palabra escribiré la palabra,

su frecuencia y, lo que llamaré,

su frecuencia relativa.

Veamos, la palabra "to" aparece 2 veces

"TO be or not TO be",

pero hay 6 palabras en total,

así que llamaré su frecuencia relativa

2 dividido en 6,

entonces en 6 palabras, aparece dos veces

"be" aparece 2 veces también

"or" aparece 1 vez

"not" aparece 1 vez

haremos estas frecuencias relativas

sus probabilidades

para que podamos decir que

el contenido de información de este texto

es igual a menos, y ahora vamos a sumar

para cada mensaje, o sea, para cada palabra

su probabilidad veces el logaritmo en base 2

de su probabilidad

y haremos eso para cada palabra

y eso es aproximadamente 1.9

esta es una manera de calcular

el contenido de información de un texto

Veremos un poco más de esto

en los ejercicios