Adesso ripasserò tutti i passaggi che abbiamo fatto ok? Perché abbiamo fatto un lungo viaggio e avete imparato moltissime cose con lo scopo di risolvere questo problema piuttosto, alla fine, piuttosto semplice. Ok? Il problema che volevate risolvere, ok? Era una descrizione compatta di quanto tempo si impiega per avere un taxi a New York, ok? E quella descrizione compatta che voi volevate inferire o apprendere dai dati ok? Quelle cose che non sono compatte sono dire che la probabilità di aspettare "n" minuti é il numero di volte che voi avete aspettato per "n" minuti, ok?, per un taxi. Questo tipo di descrizioni abbiamo detto sono troppo.. si adattano eccessivamente ai dati, ok? Così invece quello che ho detto era che quello che avremmo fatto é provare a riprodurre un numero limitato di aspetti. Non proviamo a riprodurre, per esempio, il numero esatto di volte che abbiamo aspettato 6 minuti, ok? O la frazione esatta di volte che abbiamo aspettato 6 minuti. Invece quello che faremo é riprodurre giusto, alcune delle caratteristiche complessive e generali dei dati. In particolare quello che ho detto sai cosa? l'unica cosa che voglia preservare é il tempo medio che mi serve per prendere un taxi. Ecco tutto. Tutto il resto, dimenticalo. Ora il problema é, ci sono molte distribuzioni che preservano quella. Così quello che abbiamo deciso di fare era di prendere la distribuzione con la massima entropia soggetta ai vincoli, ok? E il ragionamento che abbiamo fatto era che la distribuzione con massima entropia ci lascia con la massima incertezza riguardo al tempo di attesa, ok? Non ha nessuna teoria nascosta. Non c'é modo in cui possa implicitamente assumere qualcosa riguardo ai dati che possa ridurre la tua incertezza su quello che accadrà, ok? Così era la nostra discussione.. la nostra.. er, uh... giustificazione intuitiva per questo passaggio qui, di massimizzare l'entropia, ok? Una volta che credete sia una buona cosa da fare, poi ci immergiamo nella matematica. In particolare, quello che ho dovuto fare era mostrarvi come funziona il metodo di Lagrange. Questo é un importante strumento matematico, utile non solo per il caso specifico del problem MaxEnt, ma lo vedete dappertutto soprattutto in una materia come economia ok? dove il vostro scopo - in fatti, i moltiplicatori di Lagrange sono chiamati "prezzi ombra", ok? Ma, in quelli... in molti sistemi dove si cerca di massimizzare una quantità ma sei vincolato da un altro insieme di forze, ok? Così vi ho mostrato come applicare il trucchetto dei moltiplicatori di Lagrange. Vi ho dato... vi ho dato un problema bidimensionale con un vincolo e vi ho detto che il problema con vincolo terminale sembra, o funziona in maniera simile, ok? E poi ho davvero risolto il problema di massimizzare i vincoli - di massimizzare l'entropia soggetto ai vincoli e abbiamo trovato una specifica funzione ma era solo una funzione. Era solo solo una funzione perché lambda e Z, questi erano i termini nascosti dei moltiplicatori di Lagrange. Questi erano termini che ho dovuto impostare a mano. Quindi adesso conosco la funzione. Ma ora devo fare il lavoro pesante per trovare cosa lambda e Z dovrebbero essere. E così, ho dovuto fare qualche sommatoria infinita, con qualche bel trucchetto matematico - spero vi siate divertiti - e infine quello che abbiamo trovato era che risolvendo per i moltiplicatori di Lagrange porta ad una singola equazione trascendentale per lambda 1. Mentre non guardavate l'ho inserito in Mathematica e trovato il valore numerico di lambda 1 che é uguale a circa 0.22. Così, alla fine di tutto ciò, se questo é 0 minuti, 1, 2, 3, 4, 5, 6, 7... questo é il vostro tempo di attesa in minuti questa é la probabilità di aspettare per quel tempo. Quindi nei dati, avevamo, sapete, aspettato qualche volta 6 minuti qualche volta, vediamo, 3 minuti qualche volta aspettavamo, 4 minuti, un paio di volte abbiamo aspettato 2, ok? Quindi questa era la distribuzione dei dati che abbiamo misurato, giusto? Questo sarebbe stato quello che abbiamo detto essere un adattamento eccessivo. E in effetti, abbiamo trovato che la distribuzione in realtà assomiglia a qualcosa così, é una distribuzione esponenziale, in "x", ok? Quindi questa qui é, in qualche modo, il miglior modello per questo, se fossimo rigorosi.. se se.. se questo fosse vincolato solo dal valore medio di questi tempi di attesa qui. É l'unica cosa che abbiamo vincolato. E questa qui, per questa specifica scelta del moltiplicatore di Lagrange, ha la media corretta e nient'altro. É massimamente incerta. Non é che questa non ha nessun'altra proprietà, questa distribuzione ha per esempio, una varianza. Ma queste sono tutte dipendenti, sono tutte scelte cosicché questa distribuzione qui ha la massima entropia soggetta al vincolo solo sulla media. Quindi pensiamo un po' a questo modello, che tra l'altro é meccanicisticamente agnostico, giusto? Non ha nessuna teoria sui taxi, in nessun posto. Avremmo potuto, invece di modellare tempi di attesa dei taxi, avremmo potuto modellare tempi di attesa, non so.. sapete, il vostro prossimo volo United, giusto Avremmo potuto modellare, sapete, il numero di, um.., sapete, il numero di terremoti in Giappone all'anno di una certa intensità. Avremmo potuto modellare il numero di, sapete, "C+" che date ai vostri studenti in uno specifico anno, ok? Questo metodo é completamente ignaro dell'attuale fisica sottostante o scienze cognitive o sociologiche del problema, ok? Ma andiamo, guardiamo e vediamo se c'é qualche modello meccanicistico implicito che la massima entropia ci ha implicitamente dato. In particolare, vediamo se riusciamo a costruire - e riusciremo a farlo facilmente - un modello meccanicistico sottostante del prendere un taxi a New York che produce la stessa distribuzione di probabilità, ok? E quindi quello che farò, sarà dire che la probabilità di prendere un taxi a New York é costante e indipendente dal tempo. E in particolare, la probabilità di prendere un taxi in un intervallo di un minuto é "p". Va bene? Quindi il numero "p", ok? Allora questo significa che la probabilità di prendere un taxi tra il minuto 0 e il minuto 1 é "p", la probabilità di prendere un taxi tra il minuto 1 e il minuto 2, beh, prima é "1-p", perché non avete preso il taxi il primo minuto, ok, siete stati sfortunati. E la probabilità, ok, - non avendo preso il taxi nel primo minuto, lo prendete nel secondo. Ok, che é proprio "p". Ok? Quindi... o piuttosto P(0), é "p". La probabilità di prendere un taxi tra 0 e meno di un minuto é "p". P(1) é "1-p" per "p". E ovviamente P(2) é "1-p" al quadrato per "p". Perso nel primo minuto, perso nel secondo, infine preso nel terzo, ok? E quindi, questo qui é un modello meccanicistico Ok? E almeno ha una qualche teoria sui taxi di New York, assume siano come gocce di pioggia, cadono dal cielo. Ok? In maniera indipendente gli uni dagli altri. E poi posso mappare questo modello qui, che in generale assomiglia a... P(x) uguale "1-p" alla "x", per "p". E se definisco "Z" come "1/p". E definisco "lambda 1" come meno il logaritmo di "1-p". Allora ho l'esatta corrispondenza tra i due modelli, ok? Quindi, quello che abbiamo appena visto é che il modello di massima entropia, ok, dove il tempo medio di attesa é vincolato ad un valore specifico, ma il sistema é altrimenti completamente incerto, é equivalente ad una specie di modello dei taxi a pioggia casuale, e, quello che faremo per il resto di questo corso é parlare un po' di questa storia del meccanismo agnostico, ok? Può essere tradotto in un insieme di assunzioni, ok? Riguardo ai principi sottostanti, i principi scientifici sottostanti che potrebbero agire, e poi in particolare qui é un po' esagerato chiamare questo un principio scientifico, ma essenzialmente la storia é che, sapete... Servizi di trasporto privati a New York arrivano in maniera scorrelata tra loro, costante nel tempo, ok? E potete vedere, certamente, che, sapete, se aspettate, sapete, troppo a lungo forse il tempo del giorno cambia, forse altri aspetti del sistema cambiano, quindi questo "p" potrebbe cambiare, ok, nel qual caso questo modello qui non avrebbe più la stessa forma funzionale del modello MaxEnt, ok? E potete vedere come ulteriori fenomeni meccanicistici possono portare il sistema fuori dal semplice modello MaxEnt, ok?