Sigamos examinando la relación entre información y probabilidad. La probabilidad se refiere sólo a tirar monedas, cara, cara, cruz, vaya! Por cierto, yo tenía una moneda legal de un cuarto con dos caras, expedida por la casa de moneda de los EU, pueden adivinar qué es? De hecho es el cuarto de dólar de New Hampshire, que tiene a George Washington de un lado y al Viejo de la Montaña en el otro. El Viejo de la Montaña es una formación rocosa que parece una cara, desafortunadamente se cayó hace como diez años, y ahora han expedido un nuevo cuarto para New Hampshire. También tengo una moneda legal de un cuarto que tiene 5 caras, cuál creen que sea? Entonces, veamos esta relación entre información y probabilidad. Probabilidad, podemos pensar en ella como algo que es una probabilidad previa, entonces la probabilidad de caras y la probabilidad de cruces es la mitad, ya que no hay ninguna razón en particular para escoger entre cara o cruz cuando lanzo esta moneda. Pero también podemos pensar en términos de frecuencias. Si tenemos una larga, larga secuencia de caras y cruces, e intentaré hacer esto aleatorio pero tengo un presentimiento de que es exactamente la misma secuencia de caras y cruces que puse anteriormente. Mis estudiantes se quejan de que cada vez que escribo una secuencia aleatoria de ceros y unos en el pizarrón, es siempre la misma secuencia, lo cual no puede ser muy aleatorio, ¿o sí? De cualquier modo, lo que podemos hacer es decir, "tomemos una muy muy larga secuencia, contemos el número de caras y cruces, la frecuencia de caras es igual al número de caras dividida entre la longitud total de la secuencia La frecuencia de cruces es la misma. Y ahora nos preguntamos, tenemos esta intuición de que la moneda no tiene sesgos, que todas las secuencias que podríamos generar tendrían alrededor de 50% de caras y cruces. Déjenme poner eso matemáticamente más preciso. Veamos el número total de secuencias de lanzamientos de monedas de longitud m, que tienen exactamente m_h caras y m_t cruces. La suma de esas dos cosas es igual a m, la longitud total de la secuencia. Ahora el número total de secuencias posibles es un número llamado "combinaciones de m en m_h" es el número de maneras, si tengo una secuencia de longitud m, y llamo a las caras 0s y a las cruces 1s, es el número de secuencias binarias de longitud m que tienen exactamente m_h 0s y m_t 1s. Y claro, estas son la misma cosa, porque si he elegido el número que tiene exactamente m_h caras, es exactamente el mismo número de secuencias que tiene m_t cruces. Entonces, ¿cuál es ese número? Es igual a lo siguiente: número de maneras de elegir, esto es llamado combinaciones de m en m_h, es la formulación matemática y se escribe de esta forma curiosa con paréntesis, m arriba y m_h abajo, se llama combinaciones de m en m_h porque es el número de maneras de elegir m_h lugares de entre m posibles. Entonces tenemos cero cero cero uno uno cero, De nuevo estoy cayendo en la misma posibilidad. Tenemos un gran número de posibles lugares, y queremos contar el número de lugares donde podemos poner ceros. Entonces tenemos un número dado de ceros y los queremos colocar de una forma particular. Ahora, este número total es el número total de secuencias que tienen exactamente este número de m_h caras ahí. Entonces este número, que escribiré lo que es, combinaciones de m en m_h es igual a m! / m_h!*(m-m_h)! que es igual a m! sobre m_h! * m_t! Utilizo esta curiosa notación con un signo de exclamación. Este signo dice que si tengo un número, m!, es igual a uno por dos por tres por cuatro ... por m-1 por m. Es el producto de todos los números hasta m. Entonces, por ejemplo, 2! es igual a uno por dos, lo cual es igual a dos. 3! es igual a uno por dos por tres, lo que es igual a seis, etcétera. Estos números se vuelven grandes muy, muy rápidamente. Entonces este número, combinaciones de m en m_h, m! es el número total de maneras de rearreglar m objetos. Si tengo un número dado de ceros y unos, podemos arreglar estos m objetos en una forma particular, pero si tenemos un cero en el primer espacio y un cero en el segundo, no nos interesa se este es este cero o es el otro. Ambos son ceros. Entonces tenemos que dividir entre el número de maneras posibles de rearreglar el número de ceros entre ellos. Este es este número m_h! - es el número de maneras de rearreglar los ceros y m_t! el número de maneras de arreglar los unos. El número total de secuencias que tienen exactamente m_h ceros y m_t unos es el número total de formas de rearreglar estas secuencias dividido entre el número de formas de rearreglar los ceros, dividiso entre el número de formas de arreglar los unos. Esto es un hecho, pero si no les hace sentido, simplemente asúmanlo. Entonces tenemos esta bonita fórmula matemática patra este número. Y aquí hay otro dato divertido. Ahora voy a definir una probabilidad. La probabilidad de caras, que llamaré q. Porque ya estábamos de acuerdo en que la probabilidad de caras era un medio, y la probabilidad de cruces era un medio. Entonces defino este como el número de caras dividido entre m. Esta es la frecuencia de caras, o lo que observamos que es el número de caras. Como si fueran las probabilidades observadas de caras. Pero sólo es una frecuencia, no sabemos si es la probabilidad. Y 1-q(h) es igual a q(t), que es la frecuencia de cruces. Aquí está la fórmula fundamental de la teoría de la información. Lo diré otra vez: la fórmula fundamental de la teoría de la información. S para la entropía, o I para la información, se escribe de ambas formas porque recuerden, la entropía, la cantidad descubierta en el siglo 19 es sólo información. La información requerida para etiquetar las diferentes configuraciones de átomos y moléculas. En este caso estamos tratando de etiquetar el número total de posibilidades de caras y cruces, entonces es igual a -q(h) log en base 2 q(h) - q(t) log en base 2 q(t) Esta es una fórmula graciosa. Hay estos signos negativos, hay estos logaritmos, estas probabilidades, etcétera. Entonces permítanme escribirla para un caso particular. Supongamos, sólo para darles una idea de lo que es, que q(h) resulta ser exactamente un medio. Entonces la mitad de estas secuencias son caras. Y supongamos que q(t) es lo mismo, porque es uno menos esto, lo cual es q(t). Entonces esta cantidad S o I, la información o entropía, son dos lados de la misma moneda. I es igual a -0.5 log en base 2 de 0.5, porque esto es 0.5 y esto es 0.5 Y entonces tenemos -0.5, esto es q(t), log en base 2 de 0.5 Hay dos d estos, cada uno multiplicado por 0.5 Esto es igual a -log en base 2 de 0.5, porque sumé a los dos. Pero log en base 2 de 0.5, esto es la potencia a la cual 2 debe ser elevado para sea igual a 0.5, y eso es -1 Esto es igual a -(-1), porque 2^(-1) es 0.5, y eso es igual a 1, que además tiene unidades, es igual a un bit. Entonces esta fórmula, que no voy a llamar mágica, sólo es matemática, pero es extremadamente útil. Esta fórmula dice, si tengo una moneda, y la lanzo, y su probabilidad de caras es 0.5, su probabilidad de cruces es 0.5, entonces la cantidad de información que está contenida en un solo lanzamiento, o si prefieren, la cantidad de información generada por un lanzamiento, es un bit. Sucede que es cruz esta vez. Entonces, lanzar una moneda y obtener una freuencia de caras y de cruces de 0.5 nos da un bit de información. Ahora, si regresamos al argumento de contar sobre probabilidad, encontramos que el número de bits requerido para dscribir las maneras de arreglar exactamente un cierto número m_h de caras, recuerden este es un número, que estamos definiendo como m, el número de bits requerido para describir esto es igual a m por (-q(h) log en base 2 de q(h) -q(t) por log en base 2 de q(t)), y esto es igual a m por la cantidad de información. Sigo tentado a llamarle mágica, pero yo no creo en la magia. Entonces esta fórmula matemática para la información es simplemente una forma de contar posibilidades. Vemos el número posible de obtener exactamente m_h caras. Sacamos el logaritmo, que es el número de bits de información que hay en esta secuencia en particular, y encontramos que es igual a m, el número total de lanzamientos, por esta cantidad, la información. Para resumir, la fórmula fundamental de la teoría de la información nos dice que la cantidad de información, que es también la cantidad de entropía, es igual, si tengo dos posibilidades, a -q(h) log de q(h) - q(t) log q(t) Si tengo más posibilidades, llamémosle k resultados posibles, entonces la cantidad de información es igual a la suma negativa de los resultados posibles desde i=1 a k q(i) log base 2 de q(i). Y obtenemos esto simplemente contando el número de posibilidades que implica construir estas frecuencias. Y esta fórmula extremadamente útil es la base de toda la teoría de la información, incluyendo la teoría matemática de la comunicación, incluyendo la teoría de la computación.