Nous avons introduit ce problème relatif à la production d'un modèle parcimonieux des données, c'est-à-dire une description des probabilités chaque configuration possible. À présent, je vais vous montrer la méthode générale pour élargir un modèle parcimonieux, -- ou, à l'inverse, une méthode générale pour créer un modèle plus parcimonieux qu'une reproduction exacte des données. Cette méthode a pour nom la méthode de l'entropie maximale ou le principe MaxEnt. L'exemple dont je vais parler consiste à prédire quand vous aurez un taxi à New York. À New York, on plaisante en disant qu'on ne trouve jamais de taxi, sauf quand on n'en a pas besoin, au moment où ils abondent. On pourrait bien sûr trouver des raisons bizarres à cela, or si vous avez déjà tenté de prendre un taxi tôt le matin pour aller vers Park Avenue, oubliez, c'est peine perdue. Voici quelques taxis new-yorkais. Si vous deviez aborder le sujet scientifiquement en décidant de recueillir des données et que, en faisant ça, vous vous disiez, « Je sors, il me faut un taxi. Combien de temps dois-je attendre -- pour que je puisse enfin avoir un taxi dans lequel je puisse monter? Un taxi libre et en service. » Supposons que j'aie consigné cela pendant un certain temps. Voici donc les données que j'ai recueillies, et c'est le temps qu'il m'a fallu pour obtenir un taxi en minutes. Une fois, il m'a fallu 6 minutes pour avoir un taxi, puis 3 minutes, 4 minutes, une autre fois encore 6 minutes et ainsi de suite. Voici donc un ensemble d'observations, -- sur une question empirique fondamentale : Combien de temps pour avoir un taxi ? La question qui se pose alors est : que dois-je penser -- du temps d'attente -- pour un taxi new-yorkais ? Vous maîtrisez déjà assez bien le sujet. Vous savez, par exemple, -- qu'une façon de procéder est de prendre ces données ici ; j'ai 10 points de données sur le temps d'attente pour un taxi ; et donc la probabilité que j'attende 6 minutes pour avoir un taxi semble être d'environ ; -- il y a une, deux, trois fois sur dix que j'ai vu un taxi après 6 minutes. Ça signifie qu'il y a environ 30% de chances que je doive attendre 6 minutes. Et, par exemple, la probabilité que je doive attendre 2 minutes semble être de 20 %. On voit dès lors qu'il y a un gros hic, car, par exemple, il s'avère que si je suis exactement ce modèle naïf, les chances que j'obtienne un taxi en 1 minute sont nulles. Zéro chance d'avoir un taxi en 1 minute. De plus, il indique, en outre, que la probabilité que j'attende 7 minutes pour prendre un taxi est également nulle. Cela nous semble déroutant. Cela ressemble à une forme de surapprentissage des données. Nous décrivons les données de telle manière que nous y apportons trop de structure. Le fait que je n'ai jamais attendu plus de 6 minutes pour avoir un taxi, mais que j'ai dû attendre trois fois ; j'ai attendu 6 minutes trois fois ; on dirait un hasard des données. Mieux vaut éviter ça dans notre modèle. Au lieu de recourir à la méthode naïve, -- ce que je vais faire ; -- et c'est la base de la méthode de l'entropie maximale ; c'est produire une distribution de probabilité qui a deux choses. Premièrement, -- mon P_{MaxEnt} que je vais essayer de produire. Tout d'abord, P_{MaxEnt}, nous l'appellerons P_{ME}, -- satisfait -- un nombre limité de contraintes, et je vous en dirai plus dans un instant. Et deuxièmement, -- la distribution qui satisfait ces contraintes a l'entropie maximale de toutes les distributions -- qui satisfont ces contraintes. Nous allons donc découvrir -- qu'il y a potentiellement de nombreuses distributions de probabilité qui satisfont aux contraintes, et nous allons choisir celle, et il s'avère que c'est l'unique, qui a l'entropie maximale parmi toutes les distributions qui satisfont à ces contraintes. Les contraintes prendront donc toujours la forme de valeurs d'espérance. Il y aura toujours des contraintes sur la moyenne d'une certaine quantité que l'on mesure sur les données. Ainsi, par exemple, -- nous pourrions avoir une contrainte sur la valeur d'espérance du temps d'attente moyen. Nous l'écrivons donc ainsi. Ces parenthèses indiquent la valeur espérée de x. Ainsi, -- nous intégrons la probabilité d'attendre x fois le temps x, dx, et nous intégrons de 0 à ∞ . Si l'on se contente d'une discrétisation et on parle en minutes, on arrondit à la minute près, on peut aussi l'écrire comme ça. Alors qu'ici, au lieu d'intégrer sur un continuum de temps de 0 à 0,01 minutes et ainsi de suite, nous additionnons 0 min, 1 min, 2 min, 3 min. À 0 minute, le taxi est juste là, vous ouvrez la porte, c'est magique. Vous avez là une valeur d'espérance sur le temps d'attente moyen et pour vous donner un exemple, voici une autre valeur d'espérance que vous pourriez mesurer. C'est la moyenne du carré du temps d'attente et, bien sûr, -- on procède de cette manière en intégrant x² dx, -- pondéré par la probabilité de ce x spécifique, et en général la valeur d'espérance d'une fonction f(x) est -- la pondération de f(x) par la probabilité de chaque x. Pour ce qui est de cette notation, -- si elle ne vous est pas familière, prenez un peu de temps pour comprendre en quoi c'est la bonne façon de parler de la valeur moyenne de x. Et, pourquoi pas, celui-ci vous sera peut-être plus familier, au cas où les intégrales feraient, à tort, un peu peur. Ce que nous allons faire dans ce contexte particulier, le principe de l'entropie maximale, est, premièrement, P_{ME} (x) -- sera contraint -- de sorte que la valeur moyenne de x, le temps d'attente moyen, sous la distribution P_{ME}, soit égale à celle des données. Et, en fait, si on compte ici et qu'on mesure le temps d'attente moyen dans les données, on découvre, -- et j'en suis très heureux, le temps d'attente moyen. Pour cet ensemble, c'est 4 minutes. Ainsi, nous dirons, « Donnez-moi des distributions de probabilité -- dont le temps d'attente moyen est de 4 minutes. » C'est donc la première étape, l'étape de la contrainte. On constate déjà qu'il y a de nombreuses distributions avec un temps d'attente moyen de 4 minutes. En voici une. La probabilité d'attendre x minutes est de 0, sauf quand x = 4. Pour être technique, c'est une définition qui ne fonctionnerait que dans le cas discret. Il faudrait utiliser des fonctions delta, je vous épargnerai cela. Voici un autre exemple. P(x) = 0,5 si x = 3, 0,5 si x = 5, et 0 sinon. Ce sont autant de modèles potentiels pour prendre un taxi à New York qui satisfont à la contrainte que leur moyenne est de 4 minutes. Quelqu'un pourrait dire, « Hé, au fait, voici un bon modèle de vos données. » Fournir des données, c'est comme si les taxis prenaient 3 ou 5 minutes -- et c'est tout. Vous pouvez bien sûr songer à mélanger ces deux-là. Vous pourriez, ainsi, mélanger ceci et cela pour avoir une distribution. Je vais le dessiner sous forme de graphique. Là il y a un certain étalement des temps d'attente entre 3, 4 et 5 minutes. Bien sûr, cette répartition originale ici la satisfait également, -- par définition. Si la distribution est non nulle uniquement à ces points et qu'elle est pondérée par le nombre d'occurrences dans les données, l'espérance sur cette période sera aussi de 4 minutes, par définition. Nous avons donc une pléthore de modèles candidats. Nous avons une pléthore de modèles qui satisfont à cette contrainte-là. Choisissez celui -- qui maximise l'entropie. Vous devriez avoir retenu la définition de l'entropie, sinon, voici le moment idéal pour mettre la vidéo en pause -- et la revoir Mais ce que nous voulons, c'est la distribution -- dont l'entropie est maximisée. Ou encore, nous voulons une distribution qui laisse un maximum d'incertitude quant au temps que mettra le taxi pour arriver, sauf, bien sûr, pour une chose. La seule chose qui a été contrainte est que le taxi prend 4 minutes en moyenne. Sinon, je cherche à être le plus incertain possible. Je ne souhaite pas, comme dirait-on philosophiquement, je ne veux avoir aucun préjugé sur ce que font les taxis new-yorkais, je veux être le plus incertain possible -- sur leur comportement soumis à cette seule contrainte. Et on voit, par exemple, ici, de façon intuitive, que l'idée selon laquelle les taxis mettent toujours 4 minutes -- répond à ce critère moyen, mais cela apporte une énorme structure supplémentaire. Cela revient à dire que tout temps d'attente, hormis les 4 minutes, est interdit. Cela semble donc intuitivement exiger une justification supplémentaire. mais nous tentons de minimiser les biais. Nous essayons d'avoir une portée maximale possible, une portée maximale possible sur toutes les configurations du système, sous réserve d'une contrainte sur le comportement moyen que nous observons. Celle-ci présente un éventail plus large, et le mélange de ces deux éléments est encore meilleur. Et notre objectif est de produire une distribution dans laquelle -- il faut chercher à connaître ; et c'est là une façon d'interpréter l'entropie ; le nombre maximal de questions en moyenne pour déterminer le temps qu'a mis le taxi. Donc, cette étape vous permet de choisir parmi tous ces modèles, parmi la pléthore de modèles qui satisfont aux contraintes, un modèle particulier.