Messa a fuoco la formula per il maxent nel secondo passo, anzitutto, si vuole che la distribuzione di probabilità la soddisfi sui valori medi del tempo di attesa; e, poi, che la particolare distribuzione di probabilità abbia la massima entropia Per massimizzare la funzione p log p dimentico sempre il segno negativo. Infatti, stiamo massimizzando la funzione negativa somma su tutti gli stati del sistma p log p. Gli stati del sistema qui rappresentano l'attesa di un particolare taxi. O piuttosto, l'attesa dal tempo esato dal quale aveto iniziato ad aspettarlo. Ecco qui un problema complicato, o almeno non facilissimo. Di fronte ad un elementare calcolo, si è davvero bravi a massimizzare le funzioni. Immaginate in particolare... e userò un esempio semplice di una funzione su uno spazio bidimensionale Assi x1 e x2 con alcune funzioni. Ne segnerò i termini generali. Ecco, farò in modo che ci sarà un solo massimo nello spazio. Edi questo parleremo in una delle appendici, se avremo tempo, perché possiamo provre che la funzione di entropia ha solo un massimo persino con questa funzione. Per ora, prendete per buono l'unicità della soluzione al problema. Qui la funzione con un unico punto di massimo, la funzione f. Con le vostre grandionse capacità di calcolo il punto di massimo di f è definito come il punto delle derivate rispetto a x uguale a 0. Si tratta di vettore per cui df/dx1 è 0 e df/dx2 è 0. Ora potreste raggiungere per sbaglio un minimo, controllate bene come fareste. Non possiamo ora più considerare l'intero spazio. Ma restringiamo ad alcuni sottospazi, nello specifico ad alcune funzioni. Come trovare, dunque, il punto di massimo della funzione, non globale, ma che soddisfi una serie di condizioni, disegnate come linee nello spazio. Un punto è un valido argomento per la funzione f ma non soddisfa la condizione specifica. Pertanto, la definiremo come g(x) = c, dove c è un numero particolare. E per essere chiari sarebbe meglio scrivere g(p) uguale a 4 minuti. La nostra particolare condizione è che la funzione g sia ugiale a 4. É un esempio generale. Dobbiamo ora trovare il punto di massimo, la cima della montagna. Vogliamo trovare il punto che rappresenti il massimo lungo questa linea g(x) = c In maniera intuitiva, immaginate che un treno percorra una zona di montagna andate giù, lungo i contorni della funzione f. In questo caso, salite - la funzione cresce - toccando dei punti che non rappresentano il punto massimo della funzione lungo la linea, se aspettate un po' di più, arrivate qui e avete di già superato il controno. Qui, salite. Scendete poi lungo la montagna Superate la linea di contorno in altro modo, ben sapete che il pinto di massimo non può essere qui perché avete toccato punti più alti. Quindi, in qualche parte tra questi punti c'è il punto di massimo - nel mezzo arrivatee in cima, quando cioè i contorni della funzione f sono paralleli al percorso dei binari dove c'è un punto di tangenza tra il contorno e la direzione del treno. Sappiano come procedono le direzioni dei contorni della funzione f - questi sono solo il gradiente della funzione...è un vettore, ricordatelo. E questi sono uguali alla perpendicolare dei binari. Se questa è parallela alla perpendicolare dei contorni, la direzione dei contorni è parallela alla direzione dei binari. Se le due perpendicolari sono parallele, sono i due vettori d'origine. La prossima domanda sarà come ottenere la perpendicolare ai binari. Immaginate che questo sia il percorso del treno per g(x) = c, e questo per g(x) = c' e così via. Qui un altro insieme di contorni definito come funzione g e vogliamo trovare le sue perpindicolari parallete ai contorni per f le perpendicoali per i contorni di f. Questo gradiente, qui - queste frecce e, in particolare, queste frecce qui - sono uguali al numero reale lambda volte il gradiente. QUando questa equazione è soddisfatta, significa che questi contorni sono esattamente paralleli a questi contorni. Per massimizzare la funzione f soggetta ad una serie di condizioni, non risolvetela qui. Non risolvete questo problema, ma quest'altro. E scoprirete questo misterioso valore lambda. Questo è chiamato il moltiplicatore di Langrange. Proveremo a trovare una soluzione dove i gradiente siano paralleli tra di loro. In altri temrini, questo può essere trasformato in altro lungo i fattori costanti degli assi. Il motivo intuititvo per la soluzione a determinate condizioni quando ne avete solo una. Ora, troviamo il punto di allineamento dei due gradienti. É come una piega. Sembra che abbiamo una sola condizione da rispettare cioè che questa funzione sia uguale a 4. Ma abbiamo 2 condizioni. L'altra è la normalizzazione generale, cioè che la funzione p venga normalizzata per 1 Se sommate le probabilità dei tempi di arrivo, saranno uguali a 1. Ora p è la probabilità e sappiamo che dev'essere vera. Non lo sappiamo esplicitamente, ma quando andiamo nella funzione - dove xs diventano ps, manipoliamo le probabilità vogliamo esplicitare la condizione che la somma sia uguale a 1 quando consideriamo il punto massimo della funzione f. Vogliamo spaziare nello spazio intero, per esempio, dove tutte le probabilità siano 0. E poi vogliamo imporre la condizione di normalizzazione. Abbiamo così 2 condizioni, non 1 soltanto.