Abbiamo introdotto il problema della creazione di un modello parsimonioso di dati, ovvero una descrizione delle probabilità di ogni possibile configurazione. Ora vi mostrerò il metodo generale per allargare un modello parsimonioso, o, al contrario, un metodo generale per produrre un modello più parsimonioso dell'esatta riproduzione dei dati, e questo è il metodo di massima entropia o principio Max Ent. L'esempio di cui parlerò è la previsione di quando potrete prendere un taxi a New York. Cioè, a New York non potrete mai prendere un taxi, tranne quando non ne abbiate bisogno, e ci sono taxi ovunque. E, va da sé, c'è una strana ragione dietro quest'accidente ma se doveste mai provare a prendere un taxi di prima mattina che va verso sud sulla Park Avenue scordatevelo, non ci riuscirete mai. Qui alcuni taxi a New York. Immaginiamo che siate degli esperti di questa materia, e decidiate di raccogliere i dati, e nel mentre, diciate, "ho bisogno di un taxi, vado per strada Quanto dovrò aspettare... per prendere finalmente un taxi, salirci su, un taxi disponibile e in servizio?" Immaginiamo di registrare i dati per un po', e qui alcuni dati raccolti, e questo è il tempo necessario per prendere un taxi. Quindi, una volta sono necessari 6 minuti, poi 3 minuti, 4 minuti, un'altra volta 6 minuti, e così via. Allora questo qui è un insieme di osservazioni sulla semplice domanda: Quanto ci vuole per prendere un taxi? e, poi, sulla domanda: Cosa dovrei credere del tempo di attesa di un taxi a New York? Quindi, siete già abbastanza bravi in questo. Ad esempio, possiamo prendere questi dati qui, ho 10 dati diversi, su quanto tempo è necessario per prendere un taxi, e, quindi, la probabilità di attesa di 6 minuti sembra essere...allora, ci sono uno, due, tre volte su dieci che prenderò un taxi dopo sei minuti, ovvero c'è il 30% di possibilità che aspetterò 6 minuti. Ad esempio, la probabilità di 2 minuti di attesa è intorno al 20%. C'è un grande problema qui, come vedete, poiché, ad esempio, si scoprirebbe che, se seguissi questo semplicistico modello direttamente, la possibilità di prendere un taxi in 1 minuto è uguale a zero. Nessuna probabilità di prendere un taxi in 1 minuto. E non solo questo, anche la possibilità, infatti, di 7 minuti di attesa è uguale a zero. É sconcertante, ragazzi, sembra che ci sia un overfitting statistico dei dati. Stiamo descrivendo i dati in maniera da strutturarli troppo. Il fatto di non aver mai atteso più di 6 minuti per un taxi, ma, in realtà, ho atteso tre volte, cioè tre volte ho fatto 6 minuti di attesa, sembra essere un caso. Non vogliamo inserire questo nel nostro modello. Allora, invece di un modello semplicistico, farò, e questo è il cuore del metodo di massima entropia, è il prodotto della distribuzione della probabilità di due filoni. Uno il mio P_{MaxEnt} che proverò a riprodurre, innanzitutto P_{MaxEnt}, lo chiameremo P_{ME}, soddisfa un numero limitato di vincoli, e tra un attimo vi dirò cos'è un vincolo. E, in secondo luogo, la distribuzione che soddisfa tali vincoli ha la massima entropia di tutte le distribuzioni che soddisfano questi vincoli. Allora troveremo che ci sono potenzialmente molte distribuzioni di probabilità che soddisfano i vincoli, sceglieremo quello, che scopriremo essere l'unico, che ha la massima entropia su tutte queste distribuzioni che soddisfano questi vincoli. Quindi i vincoli saranno sempre dei valori attesi. Ci saranno vincoli sulla media di alcune quantità di misure prese sui dati. Allora, ad esempio... possiamo avere un limiti sul risultato atteso della media del tempo di attesa. Quindi lo scriveremo così. Queste parentesi angolate rappresentano il valore atteso di x, e, dunque, il modo adoperato è l'integrale della probabilità del tempo di attesa x per x, dx, da 0 fino a ∞. Se vogliamo la controparte discreta e parlare di minuti, arrotondiamo al minuto possiamo scriverla anche così Dove, qui, invece dell'integrale su un tempo continuo da 0 a 0.01 e così via, qui abbiamo solo 0 minuti, 1 minuto, 2 minuti, 3 minuti. Quindi 0 minuti, il taxi è qui, aprite la portiera, è un giorno magico. Allora questo è il valore atteso della media del tempo di attesa. E solamente per darvi un esempio, qui c'è un altro valore atteso che potete misurare. Questo è la media del quadrato del tempo di attesa e, ovviamente, il modo con cui lo farete è l'integrale di x²dx, ponderata dalla probabilità del particolare x, e in generale il valore atteso di una funzione f(x) è ponderato dalla probabilità di ciascun x. Quindi, queste note qui dovrebbero essere qualcosa, se non siate tanto pratici o non vi sentite a vostro agio, prendete del tempo e cercate di capire perché questo è il modo corretto di parlare della media di x. E se vi piace, questo qui potrebbe essere più familiare se gli integrali vi spaventano un pochino, ma non dovrebbero. Quello che faremo in questa particolare applicazione, il principio di massima entropia è uno, P_{ME} (x) sarà limitato in modo che il valore medio di x, la media del tempo di attesa, sotto la distribuzione P_{ME}, è uguale a quella nei dati. E, infatti, se contate qui e misurate la media del tempo di attesa nei dati, trovaste, e ne sono felice, la media del tempo di attesa. In questo insieme di dati è di 4 minuti, e quindi diremo dammi la distribuzione delle probabilità la cui attesa media è di 4 minuti. Questo è il primo passo, primo passo per il vincolo. E potete vedere qui che ci sono molte distribuzioni con una media del tempo di attesa di 4 minuti. Questa è una. La probabilità di aspettare x minuti è 0, eccetto quando x=4. Solo per essere più specifici, questa è una definizione che funzionerebbe solo nel caso discreto. Dovremmo usare la funzione delta, ma ve la risparmierò. Qui un altro esempio. P(x) = 0.5 se x =3, 0.5 se x =5, altrimenti 0. Questi sono tutti modelli potenziali per prendere un taxi a NYC che soddisfano il vincolo della media di 4 minuti. Quindi, qualcuno potrebbe dire, "Hey, questo è un buon modello per i tuoi dati. Fornire i dati è come dire puoi prendere un tazi in 3 minuti o 5 minuti e in nessun altro tempo". E, va da sé, si può pensare di unirli. Quindi, per esempio, si può unire questo e questo così per ottenere una distribuzione, e lo rappresenterò graficamente qui. Dove c'è distribuzione del tempo di attesa tra 3, 4 e minuti e la distribuzione originale qui soddisfa tale Da definizione, se abbiamo una distribuzione che non è nulla solo in questi punti, e è ponderata dal numero di volte che vediamo i dati, il valore atteso sarà di 4 minuti, da definizione. Quindi abbiamo una pletora di modelli candidabili. Abbiamo una pletora di modelli che soddisfano un particolare vincolo. Scegliete quello.. che massimizzi l'entropia. Quindi dovreste ricordarvi la definizione di entropia, altrimenti ora è il momento ideale di mettere pausa, e riguardarvelo. Ma quello che vogliamo è la distribuzione la cui entropia è massimizzata. Un altro modo di dirlo è che vogliamo la distribuzione che ci lascia massimamente incerti su quanto tempo ci metterà il taxi ad arrivare, eccetto per il fatto che una cosa è limitata. L'unica cosa su cui abbiamo posto un vincolo è che il taxi impieghi 4 minuti di media. Ma nel caso contrario che io voglia essere massimamente incerto, Non voglio avere, come dirlo in maniera più filosofica non voglio avere nessun pregiudizio su quello che fanno i taxi di NYC voglio essere incerto al massimo sul loro comportamento soggetto a questo vincolo. E si può vedere, per esempio, qui, intuitivamente, l'idea che i taxi impiegano sempre 4 minuti soddisfa il criterio della media ma sta aggiungendo una grande quantità di strutture. Per qualche ragione, è come se fosse vietato ogni tempo di attesa eccetto quello di 4 minuti E intuitivamente in qualche modo sembra richiedere una giustificazione extra. Ma stiamo cercando di non avere nessun pregiudizio, stiamo cercano di avere il più ampio range possibile, il più ampio range possibile su tutte le configurazione del sistema, soggetto al vincolo del comportamento medio osservato. Questo va leggermente meglio perché consente un range più ampio, e infatti la combinazione di questi è persino migliore. E quello che vorremmo fare è produrre una distribuzione dove devi chiedere, - e questo è un modo di interpretare l'entropia - devi fare di media il numero massimo di domande per decidere quanto tempo prenderà davvero il taxi. Questo passo permette di scegliere tra tutti questi modelli, nella pletora dei modelli più diffusi che soddisfano i vincoli, un particolare modello.