Hemos reducido nuestra descripción de máxima entropía En dos simples pasos. Lo primero que queremos es que la distribución de probabilidad satisfaga esta restricción el valor promedio del tiempo de espera. y lo segundo que queremos es que esa distribución de probabilidad tenga la máxima entropía, para maximizar la función p log p siempre olvido el signo negativo de hecho, queremos maximizar la función negativa sumatoria sobre todos los estados del sistema p log p. Y recuerden, los estados del sistema aquí corresponden a cuanto tiempo espero un taxi en particular O mas bien, el tiempo que esperó desde el momento en particular en el que deicidio empezar a esperar. Entonces, este resulta ser un problema difícil, o al menos un problema no trivial. Si ha estudiado un poco de calculo y es realmente bueno maximizando funciones... Bien, vamos a empezar aquí imaginemos en particular... y uso este simple ejemplo de maximización de funciones en un espacio bidimensional Vamos a llamar estos los ejes x1 y x2. Entonces tengo alguna función. Voy a dibujar los contornos para usted así que aquí vamos, y lo que voy a hacer es forzar que tenga un solo máximo en este espacio Y vamos a hablar acerca de esto en uno de los apéndices si tenemos tiempo es porque podemos probar que la función de entropía tienen un único máximo incluso cunado se somete a estas restricciones. Por ahora, puede aceptar con fe que de hecho, este problema tiene una solución única. Entonces, aquí tenemos una función, le he dado un único máximo, y vamos a llamar esta función f. Así, usando sus increíbles habilidades de calculo, sabe que el máximo de esta función esta definido como el punto donde la derivada de f con respecto de x es 0. Y recuerde que esto es un vector lo que significa es df/dx1 es 0 y df/dx2 es cero. Ahora, si, tal vez alcanzo por accidente un mínimo así que para estar seguros que de verdad no es un mínimo eso es lo que usted haría. Entonces ahora el problema es que no tenemos permitido acceder a todo el espacio. Estamos restringidos a un sub-espacio. Estamos limitados en particular por una restricción, aqui. Así que ¿Como podemos hallar el máximo de la función? No el máximo global, sino el máximo que también satisface un conjunto de restricciones, y lo que voy a hacer es dibujar esas restricciones como una linea en este espacio. Un punto aquí es un argumento valido para la función f, pero este no satisface esta restricción, y lo que haré es definir esta restricción de la siguiente manera. Diré que esta restricción es g(x) = c, donde c es algún numero. Y solo para dejarlo claro, para nosotros g(x) De hecho es mejor para nosotros escribir g(p) es... lo hacemos 4 minutos. Eso es para recordarle que nuestra restricción particular es que la función g(p) es igual a 4. Este aquí es el caso general. Así que lo que queremos hacer ahora no es encontrar el punto máximo, la cúspide de la montaña, queremos encontrar el punto que es el máximo a lo largo de esta linea esta linea definida por g(x) = c. Déjeme darle una pequeña pista de como puede hacer esto. Imagine que esta viajando en tren por un paisaje montañoso, a medida que avanza, aquí abajo, estará cruzando los contornos de la función f. En este caso usted esta yendo cuesta arriba, la función esta incrementando, así que sabe que un punto allí no es el máximo de la función a lo largo de esta linea, porque si espera un poco mas llegara a este punto aquí, y usted ya ha cruzado el contorno, entonces aquí esta subiendo, note que aquí, esta bajando por el otro de la montaña, esta cruzando los contornos en el otro sentido, así, usted sabe que de hecho el máximo no puede estar por aquí. Porque usted ya estuvo mas alto por aquí. Así que en algún lugar entre aquí y aquí esta el máximo, Usted va subiendo y después va bajando la función es continua en algún lugar en el medio alcanzo el pico. y en particular y dependiendo de su imaginación visual Usted alcanzo el pico cuando los contornos de la función f son paralelos a las vías que esta usando, allí donde hay un punto tangente entre los contornos y la dirección de su movimiento en el tren ficticio. que viaja sobre la restricción Entonces, sabemos como conseguir la dirección de los contornos de la función f, esos son, en efecto, solo el gradiente de la función... Esto es un vector, recuérdelo. Y vamos a decir que estas son iguales a las perpendiculares de las vías del tren. Así que si las perpendiculares al contorno son paralelos a las perpendiculares de las vías del tren, eso significa que la dirección del contorno es paralelo a la dirección de las vías del tren. Si dos perpendiculares son paralelas también los son los vectores originales. Así, la siguiente pregunta es ¿como puedo conseguir la perpendicular a las vías del tren? Lo que quiero que hagan es que imaginen que esta es la vía del tren para g(x) = c, y aquí esta la vía del tren para g(x) = c' y así sucesivamente, entonces aquí esta un grupo de contornos definido por la función g y queremos que las perpendiculares a estos contornos sean paralelas a los contornos para f, las perpendiculares a los contornos de f. Lo que esto significa es que este gradiente de aquí, esta flechas aqui, y en particular, estas flechas justo aquí son iguales a algún numero real 'lambda' veces el gradiente de la restricción. Cuando esta ecuación se satisface, cuando esta ecuación de aquí se satisface, significa que estos contornos aquí son precisamente paralelos a estos contornos de aquí. Así que para poder maximizar la función f sujeta a un grupo de restricciones, no resuelva esto de aquí, no resuelva este problema, resuelva este problema. Y ahora usted notara que tiene este misterioso valor lambda, este se conoce como multiplicador de Lagrange. Entonces lo que haremos sera tratar de encontrar una solución donde los gradientes sean paralelos entre si. En otras palabras, que uno pueda ser transformado en el otro re-escalándolo por un factor constante en todos los ejes. Entonces esta es la motivación intuitiva original de como resolver el problema de la maximización sujeto a restricciones cuando usted tiene solo una restricción. Lo que hacemos es encontrar un punto en el cual estos dos gradientes se alineen. Pero hay un giro, el giro es el siguiente, parece que solo tenemos solo una restricción aquí y que nuestra restricción es solo esta función que es igual a 4, pero realmente tenemos 2 restricciones. Nuestra segunda restricción es la normalización global y dice lo siguiente, queremos que esta función p de aquí... se normalice a 1. Si usted suma todas las probabilidades de tiempo de llegada tienen que ser iguales a 1. Ahora, claro, p es una probabilidad, así que sabemos que tiene que ser cierto, no hablamos de eso explícitamente, pero cuando empezamos a vagar por el espacio de funciones, cuando esta xs de aquí se convierte en ps, empezamos a manipular las probabilidades lo que queremos es ser capaces de relajar la restricción de que tienen que sumar 1 cuando consideramos maximizar esta función f, queremos ser capaces de movernos sobre todo el espacio, incluyendo, por ejemplo, puntos donde todas las probabilidades, todas las ps, son 0. Y después lo que haremos es imponer las restricciones de normalización. Así que en realidad tenemos dos restricciones y no solo una.