在这个视频中,我将向你展示如何计算香农信息内容。 首先让我们类比一下玻尔兹曼熵和香农的信息。 香农得到了信息特征的想法是来自于玻耳兹曼的统计力学。 因此我们定义一个“微态”的概念作为系统部件的一些详细结构--- 所以在老虎机的例子中,那将是老虎机的窗户一种配置中,如 “苹果,梨,樱桃”---和“宏观态”是微观状态的集合,如 “所有的三个相同的”或“正好是一个苹果”,和熵,S,假定所有微观状态有相同出现的概率 这里的方程,公式刻在玻尔兹曼的墓碑上,上面写着一个特定宏观态的熵 被等于k,玻尔兹曼常数,W对数时间--他用"l-o-g"此意味 自然对数,并且W为对应于该宏观态的微观状态的数量。 K只是给我们提供了一种单位,常使用每焦耳/开尔文来测量,但我们的目的是 k等于1 ---我们假设---人们实际上这样来计算熵, 它只是让我们在不同的单位熵,但我们可以用它来比较熵。 因此,例如,让我们回头看看我们的老虎机。 请记住我们的测试,我们问你有多少个微观态产生“赢”的宏观状态, “所有这三个是相同的”,那是5,多少微观产生了“输”的宏观状态, 是120,所以根据波尔兹曼,如果我们假设K,玻耳兹曼常数,是1,则 我们得到这个宏观态的S,我们称之为S中的赢的宏观态,等于5的自然对数 这约是1.61,而输的S等于120的自然对数,这是约4.79-- 和玻尔兹曼所使用的自然对数在这里的原因是为了得到这在一定范围内的数字, 所以一般我们在谈论系统的一个巨大数量的微观状态产生特定的宏观状态的, 和自然对数是缩放那些极大量的方法。 但你不必担心的细节,但你可以看到的信息---对不起, 这个宏观态的玻尔兹曼熵比玻尔兹曼熵小得多 这是我们的直觉。 现在,回到我们的类比,一个微态的香农信息版本是一个消息--- 一个符号,数字或文字---和宏观态的香农信息版本是一个消息源, 这是一个集合或设定可能的消息,以某种概率发送每个可能的消息。 现在,就像我们做的玻尔兹曼熵,我们要在这里假设所有的消息同样可能, 与M为消息的数量。 现在,我们可以定义H,消息源的香农信息内容, 为等于对数2M,消息的数量的那就是,对数的底是2。 底数2使我们能够测量位每消息中的信息内容。 下面是我们1岁孩童举例,谁只是说“哒哒哒哒”,所以只有一个消息在这里, 和我们的香农的信息内容等于对数底是2。 当然2的第0次幂为1,所以信息内容是0,这与我们的直觉去--- 这没有不可预测性,没有惊喜。现在, 现在假设代替“哒哒哒”,小孩子说,“哒 吧 嘛”,即三个消息, 因此,如果是这样的话,则M是等于3,和H将等于底数是2 根据我的计算是1.58。所以这给了我们更多的信息内容 比只有一个消息时。 举例硬币,正面或反面,有两个消息, 所以一个硬币的H是等于对数2底数是2,是1。 这样的信息内容这里是1,这始终是信息内容 如果我们有两个选择,正面或反面,0或1,有相同的概率。 这种的一个例子,一个公平的模具的信息内容等于,以及这里 M等于6 ---有6个可能的消息,筛子的每一面, 因此它等于底是2的对数6,这约等于2.58。 所以,我要告诉你一点点,后来,究竟这代表,在 编码或计算机的内存,但现在它伴随着我们的直觉,这具有最高的信息含量 到目前为止,我们已经看到,因为有6个不同的消息。 现在我要写下一个更一般的公式。 对于前面的公式,我们假设所有的消息都有相同的概率, 但最常见的不是这种情况,不同的消息有不同的概率--- 我们有硬币,或者更现实的是,一个人说的话 都不会是同样可能的。 一个更普遍的公式---这是香农其实写下的公式, 令M是可能的消息的数量,以及我们对每条消息要分配一个概率。 所以我们称之为消息i的概率,这是M消息之一, p, sub i---这是给我的消息---和香农的概率只是一个名字 公式表示,该消息源的概率---这是一个求和符号, 这表示,我们要总结所有不同的---每个消息, 总消息的数量,2为底对数概率。就像使用加权平均, 用概率加权,我们把一个减号在这里,因为这些概率都是分数, 和一小部分的对数将是负的,所以我们把减号在这里 为抵消这种负面的,所以你会看到一些例子。 现在,如果你不理解这个公式,请耐心,因为我会告诉你它是如何应用的。 现在让我们有一个有偏见硬币, 那是概率不再是1/2,但让我们说,这是0.6 和0.4。 好吧,这个信息内容又是什么? 所以,让我们倒写下公式,H,偏置硬币的信息内容, 等于两个部件这里的减去的总和,这是0.6 底是2对数0 .6,再加上底是2对数0 .4,计算是 大约0.971位。因此,这是比公平的硬币更低的信息内容, 其中有1比特的信息内容,这是当然的,因为,这是更可预测--- 正面可能比反面容易出现。 现在好了,我可以做一些更普遍,并期待在文本信息内容的一个例子。 因此,假设我有一个文本,我的问题是,这个文本包含的信息内容? 实际上,有许多方法来计算,和人做 计算文本的信息内容,作为其复杂性量度,例如,但 我要去做到这一点的方式是看的不同的词的频率 作为其概率的量度。对于每一个字,我会写下来, 它的频率,然后,我会称为它的相对频率。 所以,让我们来看看......字“to”出现了两次,“是生存还是毁灭”,但有6个字组成, 所以我要调用它的相对频率2/6,所以出了6个字的 它出现了两次。 “Be”出现了两次,“或”出现一次,“not”,出现一次... 我们将让这些相对频率的概率,所以我们可以说,信息内容 这段文字是等于负,而现在我们要总结为每个邮件, 也就是说,每个字,其概率对数底2的概率, 而我们要做的,对于每一个字...... 这就是近似等于1.9。 因此这是计算一段文字信息内容的方式---我们将在练习中 看到更多的方式。