Neste vídeo vou mostrar-vos como calcular o conteúdo de informação de Shannon.

Vejamos primeiro qual a analogia entre a entropia de Boltzmann e a informação de Shannon.

Shanonn foi buscar a sua ideia de caracterizar informação à estatística mecânica de Boltzmann.

Recordemos, então, que definimos a noção de micro-estado como uma configuração detalhada das componentes

do sistema. Assim, no exemplo da slot-machine, um micro-estado seria uma configuração da janela da slot-machine,

tal como "maçã pêra cereja". E um macro-estado seria uma colecção de vários micro-estados, tal como

"todos os três o mesmo" ou "exactamente uma maçã". E a entropia, S, assume que todos os micro-estados são

igualmente prováveis. E aqui está a equação, gravada no túmulo de Shannon que diz a entropia de um dado macro-estado

é igual a k, a constante de Boltzmann, vezes o log de W. Este log aqui --- "l-o-g" --- foi o que ele usou para significar

o logaritmo natural e W é o número de micro-estados correspondentes a este macro-estado.

k dá-nos apenas um modo de atribuir unidades, medida muitas vezes em " Joules per Kelvin", mas

para o nosso objectivo podemos assumir que k é igual a 1 --- vamos assumir isso --- na realidade isso faz-se, por vezes,

ao calcular a entropia, vindo a entropia apenas em unidades diferentes, mas podemos usar isso para comparar entropias.

Assim, por exemplo, voltemos à nossa slot-machine.

Relembremos o nosso teste, em que perguntámos quantos micro-estados dariam origem ao macro-estado "Ganhar",

"os três iguais", que seriam 5, e quantos micro-estados dariam origem ao estado "Perder",

que seriam 120. De acordo com Boltzmann, se supusermos que k , a constante de Boltzmann, é 1, então

obtemos que o S deste micro-estado, este S aqui para o estado "Ganhar", é igual ao logaritmo natural

de 5, que é cerca de 1.61, e o S de "Perder" é igual ao logaritmo natural de 120, que é cerca de 4.79.

A razão pela qual Boltzmann usou o logaritmo natural foi para obter números de um certo intervalo

Em geral estamos a falar de sistemas com um número muito grande de micro-estados que dão origem a certos

macro-estado se o logaritmo natural é um meio de alterar a escala desses números muito grandes.

Mas não é preciso preocuparmo-nos com estes pormeonores, mas podemos ver que a informação --- perdão

a entropia de Boltzmann --- deste macro-estado é muito menor do que a entropia de Boltzmann

deste outro macro-estado, o que era a nossa intuição.

Agora, voltando à nossa analogia: na versão informação de Shannon, um micro-estado é uma mensagem ---

um símbolo, um número ou uma palavra --- e a versão informação de Shannon um macro-estado é uma fonte de informação,

que é uma colecção ou conjunto de possíveis mensagens, com uma probabilidade para o envio de cada possível mensagem.

Agora, tal como fizemos para a entropia de Boltzmann, vamos assumir que todas as mensagens são

igualmente prováveis, sendo M o número de mensagens.

Agora, podemos definir H, o conteúdo de informação de Shanonn de uma fonte de informação

como sendo igual ao log na base 2 de M, isto é, o log na base 2 do número de mensagens.

O loga na base 2 permite-nos medir o conteúdo de informação em bits por mensagem.

Voltamos ao nosso exemplo da criança de um ano que diz apenas "Pá Pá Pá Pá ". Portanto aqui há só uma mensagem

e o seu conteúdo de informação de Shannon é igual ao log na base 2 de 1.

Ora, como 2 elevado à potência zero é 1, o conteúdo de informação é zero, o que está de acordo com a nossa intuição ---

não há imprevisibilidade, não há surpresa.

Suponhamos agora que em vez "Pá Pá Pá", o nosso bebé disse"Pá Bá Má" isto é, 3 mensagens.

Neste caso, M seria igual a 3, e H seria igual a log na base 2 de 3, que,

de acordo com a minha calculadora, é cerca de 1.58. Isto dá-nos um pouco mais de conteúdo de informação

do que quando existia apenas uma mensagem.

No nosso exemplo de uma moeda equilibrada, cara ou coroa, há 2 mensagens

por isso, H de uma moeda equilibrada é igual a log na base 2 de 2, que é igual 1.

Por isso, o conteúdo de informação aqui é 1, que é sempre o conteúdo de informação

quando temos duas escolhas --- cara ou coroa, zero ou um, sim ou não --- com igual probabilidade.

Mais um exemplo deste tipo. O conteúdo de informação de um dado equilibrado é igual a ..., bem aqui

M é iguala 6 ---, aqui existem 6 possíveis mensagens, uma para cada face do dado,

portanto é igual a log na base 2 de 6, que é aproximadamente igual a 2.58 , e isto é em bits.

Dir-vos-ei um pouco mais, mais à frente, sobre o que isto representa exatamente

em termos de codificação ou em memória do computador. Mas, por agora, isto está de acordo com a nossa intuição

de que este tem o maior conteúdo de informação dos que vimos, porque existem 6 mensagens diferentes.

Agora vou escrever uma fórmula mais geral.

Para a fórmula anterior assumimos que todas as mensagens tinham igual probabilidade.

Mas, a maioria das vezes, esse não é o caso. Existem mensagens diferentes com probabilidades diferentes.

Temos uma moeda viciada, ou mais realisticamente, temos uma pessoa a falar e as palavras

que saem da sua boca não vão ser igualmente prováveis.

Uma fórmula mais geral --- e esta foi a fórmula que Shannon, na realidade escreveu --- diz:

seja M o número de possíveis mensagens e, agora, vamos atribuir uma probabilidade

a cada mensagem. Vamos chamar à probabilidade da mensagem i, uma das M mensagens,

p índice i --- este é apenas um nome para a probabilidade dada à mensagem i --- e a fórmula

de Shannon diz que a probabilidade desta fonte de informação --- bem, isto é um símbolo de somatório,

isto diz que vamos somar todas as diferentes ... para cada mensagem i, até ao número total

de mensagens, este log-2 da probabilidade, vezes a probabilidade. Isto é como tomar uma média pesada ,

pesada pela probabildade. Pomos um sinal "menos" aqui, porque estas probabilidades são todas fracções

e o log de uma fracção vai ser negativo, por isso pomos o sinal "menos"

para desfazer esse negativo. Irão ver isso nalguns exemplos.

Se não perceberem esta fórmula, sejam pacientes, porque vou mostra-vos como funciona na prática.

Suponhamos que temos agora uma moeda enviezada,

e que a probabilidade de cara já não é 1/2, mas sim, digamos, .6, e que a probabilidade de coroa é .4.

O.K., qual é o conteúdo de informação disto?

Escrevamos a nossa fórmula. H, o conteúdo de informação da moeda enviezada

é igual a menos, a soma das duas componentes aqui, que é .6

vezes log na base 2 de .6, mais .4 vezes o log na abse 2 de .4, que, na minha calculadora,

é aproximadamente 0.971 bits. É um conteúdo de informação mais baixo do que o da moeda equilibrada,

que tinha conteúdo de informação de 1 bit, e isso, claro está, é porque isto é mais previsível ---

--- é mais provável que saia cara do que coroa.

Agora, podemos fazer algo um pouco mais geral e olhar para o exemplo de conteúdo de informação de um texto.

Suponhamos que temos um texto. A minha questão é saber qual o conteúdo de informação desse texto.

Na realidade, existem várias formas de calcular isso, e as pessoas

calculam o conteúdo de informação de um texto como, uma medida da sua complexidade, por exemplo,

mas o modo como eu vou fazê-lo é olhar para a frequência das diferentes palavras

como uma medida da sua probabilidade. Para cada palavra, vou escrever a palavra,

a sua frequência e, depois, aquilo que vou chamar a sua frequência relativa.

Vejamos ... a palavra "to", aparece duas vezes, "to be or not to be". Mas há 6 palavras no total,

por isso vou escrever a sua frequência relativa 2 a dividir por 6 --- do total de 6 palavras

aparece 2 vezes. "be" aparece também 2 vezes, "or" aparece 1 vez, "not" aparece 1 vez...

Tomaremos estas frequências relativas como as suas probabilidades, por isso podemos dizer que o conteúdo de

informação deste texto é igual a: menos, e agora vamos somar, para cada mensagem,

isto é, cada palavra, a sua probabilidade, vezes o log na base 2 da sua probabilidade;

vamos fazer isso para cada palavra...

e isso é aproximadamente igual a 1.9.

Então, este é um modo de calcular o conteúdo de informação de um pedaço de texto. Vamos ver um pouco mais sobre isso

nos exercícios.