En este video les voy a mostrar cómo calcular el contenido de información de Shannon. Primero, miremos la analogía entre la entropía de Boltzmann y la información de Shannon Shannon obtuvo su idea, para caracterizar información, de la mecánica estadística de Boltzmann Recuerden que definimos la noción de micro-estado como una "configuración detallada de los componentes de un sistema" En el ejemplo de la máquina de juegos, sería una configuración de las ventanas como manzana-pera-cereza Y un macro-estado es una "colección de microestados", como "tres iguales" o "exactamente una manzana" Y la entropía S, asume que todos los micro-estados son igualmente probables y aquí está la ecuación, tallada en la tumba de Boltzmann, que dice que la entropía de un macro-estado en particular es igual a k (la constante de Boltzmann) veces el logaritmo de W aquí este logaritmo "log", él usó esto para referirse al logaritmo natural y W es el número de micro-estados que corresponden a este macro-estado k nos da una forma de asignar unidades medida frecuentemente como "Joules por Kelvin" pero para nuestros objetivos, podemos asumir que k es igual a 1 asumamos eso, las personas hacen eso en verdad, para calcular la entropía a veces y nos da la entropía en diferentes unidades pero podemos usarla para comparar entropías entonces, por ejemplo, volvamos a nuestra máquina de juegos Recuerden nuestro quiz, donde preguntamos cuántos micro-estados generan el macro-estado "ganar" los tres iguales y ése era 5 y cuántos micro-estados generan el macro-estado "perder" y ese era 120 Entonces, de acuerdo a Boltzmann, si asumimos que k, la constante de Boltzmann, es 1, entonces tenemos S, este macro-estado, llamemos esta S, macro-estado "ganar" es igual al logaritmo natural de 5 que es alrededor de 1.61 y S de "perder" es igual al logaritmo natural de 120 que es alrededor de 4.79 y la razón por la que Boltzmann usó el logaritmo natural aquí fue para estar dentro de cierto rango de números Usualmente estamos hablando de sistemas con un número enorme de micro-estados que dan origen a macro-estados particulares y el logaritmo natural fue una forma de escalar estos números grandes pero no necesitan preocuparse de los detalles pero pueden ver que la información, perdón, la entropía, la entropía de Bolzmann de este macro-estado es bastante menor que la entropía de Bolzmann de este macro-estado que era nuestra intuición Ahora, volviendo a nuestra analogía, la versión de micro-estado de la información de Shannon es un mensaje, un símbolo, número o palabra y la versión de macro-estado de la información de Shannon es un emisor, una colección o set de mensajes con alguna probabilidad de mandar cada mensaje posible Ahora, de la misma forma que lo hicimos para la entropía de Boltzmann, vamos a asumir aquí que todos los mensajes son igualmente probables con M siendo el número de mensajes. Ahora podemos definir H, el emisor del contenido de información de Shannon, como siendo igual al logaritmo de base 2 M que es el logaritmo en base 2 del número de mensajes El logaritmo en base 2 nos permite medir el contenido de información en bits por mensaje. Aquí está nuestro ejemplo del bebé de 1 año que sólo dice "Da, Da, Da, Da" así que sólo hay un mensaje aquí y nuestro contenido de información de Shannon es igual al logaritmo en base 2 de 1 2 elevado a la potencia de 0 es 1 así que el contenido de información es 0 que va con nuestra intuición, no hay imprevisibilidad, no hay sorpresa Ahora imaginen que en vez de "Da, Da, Da" nuestro bebé dijera "Da, Ba, Ma" esos son 3 mensajes, si ese fuera el caso, entonces M sería igual a 3 y H sería igual a al logaritmo en base 2 de 3 que, según mi calculadora, es cerca de 1.58 así que eso nos da bastante más contenido de información que cuando hay sólo un mensaje En el ejemplo de la moneda justa, cara o sello, hay dos mensajes, así que H de la moneda justa es igual al logaritmo en base 2 de 2 que es igual a 1, así que el contenido de información aquí es 1 que siempre es el contenido de información si tenemos dos alternativas cara o sello, cero o uno, sí o no, con igual probabilidad un ejemplo más de este tipo, el contenido de información de un dado justo es igual, bueno, aquí M es igual a 6 hay 6 posibles mensajes, uno por cada lado del dado así que es igual al logaritmo en base 2 de 6, que es aproximadamente igual a 2.58 y eso es en bits. Les explicaré más adelante qué representa esto en términos de codificar o calcular memoria pero por ahora va con nuestra intuición de que esto tiene el mayor contenido de información que hemos visto hasta ahora porque hay 6 mensajes distintos Ahora vamos a escribir una fórmula más general para la fórmula anterior, asumimos que todos los mensajes tenían la misma probabilidad pero frecuentemente ese no es el caso hay diferentes mensajes con diferentes probabilidades tenemos una moneda trucada o, más realísticamente, tenemos una persona que habla y las palabras que salen de su boca no van a ser igualmente probables Una fórmula más general, y esta es la fórmula que Shannon escribió, dice deja M ser el número de mensajes posibles, y ahora vamos a asignar una probabilidad para cada mensaje, entonces vamos a llamar la probabilidad del mensaje i, uno de los mensajes M, p sub i este es sólo un nombre para la probabilidad dada al mensaje i y la fórmula de Shannon dice que la probabilidad del emisor, bueno, este es el símbolo de sumatoria que va a sumar todas las diferencias para cada mensaje i hasta el número total de mensajes, este log en base 2 de la probabilidad veces la probabilidad entonces esto es como tomar un promedio ponderado ponderado por la probabilidad y ponemos un símbolo menos aquí porque estas probabilidades son fracciones y el logaritmo de una fracción va a ser negativo así que ponemos el símbolo negativo aquí para contra restar ese negativo. Veremos eso en un par de ejemplos. Ahora, si no entienden esta fórmula sean pacientes, porque les mostraré cómo funciona en la práctica Asumamos ahora que tenemos una moneda trucada y que la probabilidad de cara ya no es la mitad, sino .6 y la probabilidad de sello es .4 cuál es el contenido de información de esto? Escribamos nuestra fórmula H, el contenido de información de nuestra moneda trucada, es igual a menos la sumatoria de ambos componentes que es .6 veces el logaritmo en base 2 de .6 más .4 veces el logaritmo en base 2 de .4 que en mi calculadora se aproxima a .971 bits Así que esto es un componente de información menor que la moneda justa, que tenía un componente de información de 1 bit y eso es porque esto es más predecible cara es más probable de salir que sello Ahora puedo hacer algo un poco más general y ver un ejemplo de contenido de información de un texto. Supongamos que tenemos un texto, mi pregunta es cuál es el contenido de información de ese texto En verdad hay varias formas de calcular eso y las personas calculan el contenido de información de un texto como una medida de su complejidad, por ejemplo, pero la forma en que lo haré es mirar la frecuencia de las diferentes palabras como una medida de la probabilidad para cada palabra escribiré la palabra, su frecuencia y, lo que llamaré, su frecuencia relativa. Veamos, la palabra "to" aparece 2 veces "TO be or not TO be", pero hay 6 palabras en total, así que llamaré su frecuencia relativa 2 dividido en 6, entonces en 6 palabras, aparece dos veces "be" aparece 2 veces también "or" aparece 1 vez "not" aparece 1 vez haremos estas frecuencias relativas sus probabilidades para que podamos decir que el contenido de información de este texto es igual a menos, y ahora vamos a sumar para cada mensaje, o sea, para cada palabra su probabilidad veces el logaritmo en base 2 de su probabilidad y haremos eso para cada palabra y eso es aproximadamente 1.9 esta es una manera de calcular el contenido de información de un texto Veremos un poco más de esto en los ejercicios