Neste vídeo vou mostrar-vos como calcular o conteúdo de informação de Shannon. Vejamos primeiro qual a analogia entre a entropia de Boltzmann e a informação de Shannon. Shanonn foi buscar a sua ideia de caracterizar informação à estatística mecânica de Boltzmann. Recordemos, então, que definimos a noção de micro-estado como uma configuração detalhada das componentes do sistema. Assim, no exemplo da slot-machine, um micro-estado seria uma configuração da janela da slot-machine, tal como "maçã pêra cereja". E um macro-estado seria uma colecção de vários micro-estados, tal como "todos os três o mesmo" ou "exactamente uma maçã". E a entropia, S, assume que todos os micro-estados são igualmente prováveis. E aqui está a equação, gravada no túmulo de Shannon que diz a entropia de um dado macro-estado é igual a k, a constante de Boltzmann, vezes o log de W. Este log aqui --- "l-o-g" --- foi o que ele usou para significar o logaritmo natural e W é o número de micro-estados correspondentes a este macro-estado. k dá-nos apenas um modo de atribuir unidades, medida muitas vezes em " Joules per Kelvin", mas para o nosso objectivo podemos assumir que k é igual a 1 --- vamos assumir isso --- na realidade isso faz-se, por vezes, ao calcular a entropia, vindo a entropia apenas em unidades diferentes, mas podemos usar isso para comparar entropias. Assim, por exemplo, voltemos à nossa slot-machine. Relembremos o nosso teste, em que perguntámos quantos micro-estados dariam origem ao macro-estado "Ganhar", "os três iguais", que seriam 5, e quantos micro-estados dariam origem ao estado "Perder", que seriam 120. De acordo com Boltzmann, se supusermos que k , a constante de Boltzmann, é 1, então obtemos que o S deste micro-estado, este S aqui para o estado "Ganhar", é igual ao logaritmo natural de 5, que é cerca de 1.61, e o S de "Perder" é igual ao logaritmo natural de 120, que é cerca de 4.79. A razão pela qual Boltzmann usou o logaritmo natural foi para obter números de um certo intervalo Em geral estamos a falar de sistemas com um número muito grande de micro-estados que dão origem a certos macro-estado se o logaritmo natural é um meio de alterar a escala desses números muito grandes. Mas não é preciso preocuparmo-nos com estes pormeonores, mas podemos ver que a informação --- perdão a entropia de Boltzmann --- deste macro-estado é muito menor do que a entropia de Boltzmann deste outro macro-estado, o que era a nossa intuição. Agora, voltando à nossa analogia: na versão informação de Shannon, um micro-estado é uma mensagem --- um símbolo, um número ou uma palavra --- e a versão informação de Shannon um macro-estado é uma fonte de informação, que é uma colecção ou conjunto de possíveis mensagens, com uma probabilidade para o envio de cada possível mensagem. Agora, tal como fizemos para a entropia de Boltzmann, vamos assumir que todas as mensagens são igualmente prováveis, sendo M o número de mensagens. Agora, podemos definir H, o conteúdo de informação de Shanonn de uma fonte de informação como sendo igual ao log na base 2 de M, isto é, o log na base 2 do número de mensagens. O loga na base 2 permite-nos medir o conteúdo de informação em bits por mensagem. Voltamos ao nosso exemplo da criança de um ano que diz apenas "Pá Pá Pá Pá ". Portanto aqui há só uma mensagem e o seu conteúdo de informação de Shannon é igual ao log na base 2 de 1. Ora, como 2 elevado à potência zero é 1, o conteúdo de informação é zero, o que está de acordo com a nossa intuição --- não há imprevisibilidade, não há surpresa. Suponhamos agora que em vez "Pá Pá Pá", o nosso bebé disse"Pá Bá Má" isto é, 3 mensagens. Neste caso, M seria igual a 3, e H seria igual a log na base 2 de 3, que, de acordo com a minha calculadora, é cerca de 1.58. Isto dá-nos um pouco mais de conteúdo de informação do que quando existia apenas uma mensagem. No nosso exemplo de uma moeda equilibrada, cara ou coroa, há 2 mensagens por isso, H de uma moeda equilibrada é igual a log na base 2 de 2, que é igual 1. Por isso, o conteúdo de informação aqui é 1, que é sempre o conteúdo de informação quando temos duas escolhas --- cara ou coroa, zero ou um, sim ou não --- com igual probabilidade. Mais um exemplo deste tipo. O conteúdo de informação de um dado equilibrado é igual a ..., bem aqui M é iguala 6 ---, aqui existem 6 possíveis mensagens, uma para cada face do dado, portanto é igual a log na base 2 de 6, que é aproximadamente igual a 2.58 , e isto é em bits. Dir-vos-ei um pouco mais, mais à frente, sobre o que isto representa exatamente em termos de codificação ou em memória do computador. Mas, por agora, isto está de acordo com a nossa intuição de que este tem o maior conteúdo de informação dos que vimos, porque existem 6 mensagens diferentes. Agora vou escrever uma fórmula mais geral. Para a fórmula anterior assumimos que todas as mensagens tinham igual probabilidade. Mas, a maioria das vezes, esse não é o caso. Existem mensagens diferentes com probabilidades diferentes. Temos uma moeda viciada, ou mais realisticamente, temos uma pessoa a falar e as palavras que saem da sua boca não vão ser igualmente prováveis. Uma fórmula mais geral --- e esta foi a fórmula que Shannon, na realidade escreveu --- diz: seja M o número de possíveis mensagens e, agora, vamos atribuir uma probabilidade a cada mensagem. Vamos chamar à probabilidade da mensagem i, uma das M mensagens, p índice i --- este é apenas um nome para a probabilidade dada à mensagem i --- e a fórmula de Shannon diz que a probabilidade desta fonte de informação --- bem, isto é um símbolo de somatório, isto diz que vamos somar todas as diferentes ... para cada mensagem i, até ao número total de mensagens, este log-2 da probabilidade, vezes a probabilidade. Isto é como tomar uma média pesada , pesada pela probabildade. Pomos um sinal "menos" aqui, porque estas probabilidades são todas fracções e o log de uma fracção vai ser negativo, por isso pomos o sinal "menos" para desfazer esse negativo. Irão ver isso nalguns exemplos. Se não perceberem esta fórmula, sejam pacientes, porque vou mostra-vos como funciona na prática. Suponhamos que temos agora uma moeda enviezada, e que a probabilidade de cara já não é 1/2, mas sim, digamos, .6, e que a probabilidade de coroa é .4. O.K., qual é o conteúdo de informação disto? Escrevamos a nossa fórmula. H, o conteúdo de informação da moeda enviezada é igual a menos, a soma das duas componentes aqui, que é .6 vezes log na base 2 de .6, mais .4 vezes o log na abse 2 de .4, que, na minha calculadora, é aproximadamente 0.971 bits. É um conteúdo de informação mais baixo do que o da moeda equilibrada, que tinha conteúdo de informação de 1 bit, e isso, claro está, é porque isto é mais previsível --- --- é mais provável que saia cara do que coroa. Agora, podemos fazer algo um pouco mais geral e olhar para o exemplo de conteúdo de informação de um texto. Suponhamos que temos um texto. A minha questão é saber qual o conteúdo de informação desse texto. Na realidade, existem várias formas de calcular isso, e as pessoas calculam o conteúdo de informação de um texto como, uma medida da sua complexidade, por exemplo, mas o modo como eu vou fazê-lo é olhar para a frequência das diferentes palavras como uma medida da sua probabilidade. Para cada palavra, vou escrever a palavra, a sua frequência e, depois, aquilo que vou chamar a sua frequência relativa. Vejamos ... a palavra "to", aparece duas vezes, "to be or not to be". Mas há 6 palavras no total, por isso vou escrever a sua frequência relativa 2 a dividir por 6 --- do total de 6 palavras aparece 2 vezes. "be" aparece também 2 vezes, "or" aparece 1 vez, "not" aparece 1 vez... Tomaremos estas frequências relativas como as suas probabilidades, por isso podemos dizer que o conteúdo de informação deste texto é igual a: menos, e agora vamos somar, para cada mensagem, isto é, cada palavra, a sua probabilidade, vezes o log na base 2 da sua probabilidade; vamos fazer isso para cada palavra... e isso é aproximadamente igual a 1.9. Então, este é um modo de calcular o conteúdo de informação de um pedaço de texto. Vamos ver um pouco mais sobre isso nos exercícios.