Hemos presentado el problema de producir un modelo parsimonioso de los datos lo que supone describir las probabilidades de cada una de las posibles configuraciones. Ahora, lo que voy a hacer es mostraros el método general para aumentar un modelo parsimonioso, o, al revés, un método general para producir un modelo más parsimonioso que una reproducción exacta de los datos, y a este método se le llama método de máxima entropía o principio MaxEnt. El ejemplo del que voy a hablar trata de predecir cuándo vais a conseguir un taxi en la ciudad de Nueva York. El chiste sobre Nueva York es que nunca vas a conseguir un taxi, excepto cuando no necesitas un taxi, en que hay taxis en todos lados. Y, por supuesto, hay extrañas razones por las que ésto puede ocurrir, pero si alguna vez habéis tratado de conseguir un taxi por la mañana temprano en la dirección sur de la avenida Park, olvidadlo; nunca conseguiréis un taxi. Esto de aquí son taxis en la ciudad de Nueva York. Digamos que sois científicos en este campo, y decidís recoger datos, y recogéis datos y decís: Necesito un táxi, y voy a la calle, ¿Cuánto tiempo tengo que esperar? OK, ¿cuánto tiempo tengo que esperar para conseguir un taxi en el que pueda subirme, un taxi que está libre y de servicio? Digamos que mantengo registros por un tiempo, y éstos son los datas que he recogido, y éste es el tiempo que llevó conseguir un taxi en minutos. Así, una vez me llevó 6 minutos conseguir un taxi, después me llevó 3 minutos, 4 minutos, otra vez me llevó 6 minutos de nuevo, y así sucesivamente. Así que este es el conjunto de observaciones sobre una cuestión experimental básica: ¿Cuánto tiempo lleva conseguir un taxi? Y entonces la cuestión es: ¿Qué debo pensar sobre el tiempo de espera para un taxi en la ciudad de Nueva York? En ésto sois ya bastante buenos. Sabéis, por ejemplo, que una forma de hacerlo es tomar estos datos. Tengo 10 puntos sobre cuánto lleva coger un taxi, y por tanto, la probabilidad de esperar 6 minutos para coger el taxi parece que es... bueno, hay uno, dos, tres veces de diez que vi un taxi después de 6 minutos, lo que significa que hay un 30% de probabilidades de esperar 6 minutos. Y, por ejemplo, la probabilidad de tener que esperar 2 minutos parece ser 20%. Así que podéis ver inmediatamente que tenemos un gran problema, porque, por ejemplo, resulta que, si sigo este modelo ingenuo directamente, me dice que la probabilidad de conseguir un taxi en 1 minuto es cero. Hay esta probabilidad cero de conseguir un taxi en un minuto. Y no sólo eso, sino que por ejemplo, la probabilidad de esperar 7 minutos para coger el taxi es también cero. Esto parece desconcertante, chicos. Parece que hemos, lo que se llama, sobreajustado los datos. Estamos describiendo los datos de forma que ponemos demasiada estructura. El hecho de que nunca he esperado más de 6 minutos para coger el taxi, pero de hecho he esperado 6 minutos en 3 ocasiones, parece un accidente de los datos. No queremos poner esto en nuestro modelo. Así que, en lugar del modelo ingenuo, lo que voy a hacer, y éste es el meollo del método de máxima entropía, es producir una distribución de probabilidades que tiene dos cosas. Una, mi P_{MaxEnt} Esta es mi P_{MaxEnt} que voy a tratar de producir. En primer lugar, P_{MaxEnt}, que le llamaremos P{ME}, satisface un número limitado de restricciones, y en un momento os diré explícitamente que es una restricción. Y número dos, la distribución que satisface estas restricciones tiene la máxima entropía de todas las distribuciones que satisfacen estas restricciones. Así que lo que encontraremos es que hay potencialmente muchas distribuciones de probabilidad que satisfacen las restricciones, y vamos a coger una, y resulta que es la única que tiene la máxima entropía de todas las distribuciones que satisfacen las restricciones. ¿Ok? Así que las restricciones siempre serán en forma de valores esperados. Siempre habrá restricciones promedio de alguna cantidad que medís en los datos. ¿Ok? Por ejemplo, ¿Ok? podemos tener una restricción en el valor esperado del promedio de tiempo de espera. ¿Ok? Así que lo escribimos así. Estos paréntesis angulados significan el valor esperado de x, ¿Ok? y la forma en que hacemos ésto es integrando la probabilidad de esperar un tiempo x x veces, dx, e integrar de 0 a ∞. Y si queremos discretizar, y hablar de minutos, redondeamos al minuto más próximo, y también lo podemos escribir así. Donde, en lugar de integrar sobre un continuo de tiempos de 0 a 0.01 minutos y así, aquí símplemente tenemos 0 minutos, 1 minuto, 2 minutos, 3 minutos. Así que 0 minutos, el taxi está ahí, abrís la puerta; es un día mágico. Y éste es un valor esperado del tiempo de espera promedio. Y sólo por daros un ejemplo, Éste es otro valor esperado que podrías haber medido. Éste es el promedio del cuadrado del tiempo de espera, y, por supuesto, la forma de hacerlo, es integrar x² dx, ajustado por la probabilidad de cada x particular, y en general, el valor esperado de una función f(x) es ajustando f(x) por la probabilidad de cada x. Así que esta notación debe ser algo que, si no os resulta familiar o no estáis a gusto con ella, debeis tomaros vuestro tiempo y descifrar por qué esa es la forma correcta de hablar sobre el valor promedio de x. Y si lo prefierís, éste de aquí puede resultaros más familiar si las integrales todavía os asustan, que no deberían hacerlo. Lo que vamos a hacer en esta aplicación particular, el principio de máxima entropía, es uno, P_{ME} (x) será restringida para que el valor promedio de x, el promedio del tiempo de espera, bajo la distribución P_{ME}, sea igual que en los datos. Y de hecho, si contais aquí y medís el promedio de tiempo de espera en los datos, descubrís, y estoy contento con ello, el tiempo de espera promedio. En este conjunto de datos es 4 minutos, y lo que diremos, por tanto, dadme distribuciones de probabilidad cuyo tiempo de espera promedio sea 4 minutos Y ese es el paso 1. Ese es el paso de restricción. Y podéis ver de inmediato que hay muchas distribuciones que tienen un tiempo de espera promedio de 4 minutos. Éste es uno. La probabilidad de esperar x minutos es 0, excepto cuando x=4. Técnicamente, ésta es una definición que sólo funcionaría en el caso discreto. Tendríamos que usar funciones delta. Os ahorraré las funciones delta. Aquí hay otro ejemplo. P(x) = 1/2 si x = 3, 1/2 si x = 5, y 0 en los demás casos. Todos éstos son modelos potenciales de coger un taxi en Nueva York que satisfacen la restricción de que el promedio son 4 minutos. Así que alguien podría decir, "Eh, éste es un buen modelo de tus datos. Con tal que los datos sean que los taxis llevan 3 minutos o 5 minutos y ningún otro valor de tiempo ." Y, por supuesto, podéis pensar en combinar estos dos. Por ejemplo, podéis combinar este y éste, y tendríais una distribución que es dibujaré gráficamente aquí. Donde el tiempo de espera se extiende entre 3, 4 y 5 minutos. Y por supuesto, esta distribución original también lo satisface. Por definición, si tenemos una distribución que es no-cero en estos puntos, y se ajusta por el número de veces que lo vemos en los datos, la esperanza también será de 4 minutos, por definición. Así que tenemos una plétora de modelos candidatos. Tenemos una plétora de models que satisfacen esta restricción particular. Coged el que... maximice la entropía. Así que, habréis recordado la definición de entropía. Si no, este es el momento perfecto para pausar el vídeo y revisarlo. Pero lo que queremos es la distribución cuya entropía es maximizada. Otra forma de decirlo es que queremos la distribución que nos deja la mayor incertidumbre respecto a cuánto tardará el taxi en llegar, excepto por el hecho, por supuesto, de que una algo es restringido. Y ese algo que hemos restringido es que el taxi tarda 4 minutos en promedio Pero, por otra parte, quiero la mayor incertidumbre. No quiero tener que... sabéis la forma de decirlo filosóficamente No tengo prejuicios sobre lo que hacen los taxis de Nueva York, Quiero tener la máxima incertidumbre sobre su comportamiento sujeto a esta restricción. Y podéis verlo, por ejemplo, aquí, intuitivamente, la idea de que los taxis siempre tarden 4 minutos satisface el criterio del promedio, pero pone una cantidad enerme de estructura adicional. Está diciendo que, por alguna razón, todos los tiempos de espera, excepto el de 4 minutos, están prohibidos. Y así, intuitivamente, de alguna forma parece requerir una justificación extra. Pero estamos intentando estar mínimamente sesgados. Estamos intentando tener el rango más amplio posible, el rango más amplio posible sobre todas las configuraciones del sistema, sujeto a una restricción sobre el comportamiento promedio que observamos. Éste de aquí es ligeramente mejor, porque permite un rango más amplio, y, de hecho, la combinación de estos es incluso mejor. Y lo que nos gustaría hacer es producir una distribución en la que tengáis que preguntar - y ésta es una forma de interpretar la entropía - tenéis que preguntar en promedio el máximo número de preguntas para decidir cuánto tardará el taxi. Así que, este paso os permite seleccionar de todos estos modelos, de la plétora de de modelos populares que satisfacen las restricciones, un modelo particular