大家好,我是圣迭戈。 我拍摄这个视频,想要对第八单元 的内容做更深入一些的探讨。 下面,我们来看“囚徒困境”中 个体层面激励和群体层面 激励之间的对立, 来探究我所说的“冲突” 在博弈论中的含义。 到目前为止, 我们对该单元进行了简要介绍。 我们谈到了博弈论中的 一个重要假设, 即个体的任何行动 都是为了自己的收益最大化。 所谓收益,请记住, 就是博弈结果的 数值度量。它可以是在 本单元早先见到过的获利、 幸福、繁殖成功等。 我们做这个假设的 意思是:个体都是 自私的,他们的行为要让自己的 收益最大化。 他们只关注自己的 个人收益,我们把他们称为 自私的代理人。 本单元的一个大问题是 自私的个体能否与他人合作? 让我们回到“囚徒困境”。 在这个“囚徒困境”例子里用的数值 与梅拉妮所用的 略有不同,但对局情形 基本相同。如果你要对比 本例和那个例子, 仔细研究 每个参与者 做出决定的过程, 我鼓励你这样做。 为了让事情更清晰,为了试图 让事情更清晰,我用彩色标注 代理人及他们获得的收益。 所以第一个参与者用蓝色标识。 他可以选择蓝色的合作和 背叛,第二个参与者用绿色, 他可以在绿色的 合作与背叛中做出选择。 取决于他们的选择, 比如第一个参与者选择 合作而第二个参与者 选择背叛,那么 他们处于这个小方格,这是结果。 第一参与者的收益在左边, 第二参与者的收益在右面。 为了看清冲突我们可以进行 分解,我们重新把对局 写成合作的力量和 自私的力量之和。 为此我要用 在下面引用的这篇文章中 发展的技术,文章的题目是 《博弈策略和行为的分解》。 我把这篇文章添加到 网站的补充材料那一页上, 鼓励大家读一下。 我不能把那篇文章的 所有内容详细过一遍。 不巧的是 那篇文章有很多好的内容, 可我需要简短一些, 引导大家发现更多内容。 好,我们继续往下讲。 如果我分解“囚徒困境”对局, 就会得到这三个分量矩阵。 如果你想确认 可以把视频暂停, 把这三个矩阵相加 就会得到这个。 好的,我们来看看会发生什么。 这些分量告诉我们哪些内容。 你认为每一部分里 会告诉我们什么? 里面都包含了什么样的信息呢? 我们为什么可以 分离这些信息? 可以暂停一下视频 分析这些分量,看看 发生什么,因为我要 讲这些内容。我们继续。 这第一个分量我们认为它微不足道, 它不包含真正的信息, 不起什么作用, 因为它对两个参与者收益 的贡献都一样。 对两个参与者的这个值 不一定非要一样。 现在他俩都是 2, 但可以不同,可我想 让它先简单些。 所以这个分量不包含什么信息, 因为对结果贡献值是一样的。 在博弈理论中感兴趣的是 比较那些不同的输出。 无论我们怎样比较结果, 都要消掉这个共同的数值, 认为它是无关紧要的, 没有有用的信息。这篇文章的作者 把这部分称作“核”。 现在看第二个分量。 我们说它包含了 对局中体现自私的信息。 为什么呢? 来检查一下其它分量。 仅仅改变自己的策略能获得 更多收益么?不行。 查看一下“核”分量,比如, 第二个参与者一直采用 合作或背叛的策略, 此时你可以在合作与背叛中 切换,有没有任何激励 你去改变自己的策略呢?没有。 因此个体改变策略的 全部诱因是在中间 这个分量部分,在这个自私的 信息部分,作者将此称为 纳什或者策略部分。 称为纳什分量是因为 这一分量包含了对局中 计算纳什均衡需要的所有信息。 纳什均衡我们还没有 真正讲到,所以先不深入。 但在整个对局中, 我们将它分解为 这三层,这三个分量。 但计算纳什均衡我们只需要这个。 这很有意思。 如果你对此好奇,喜欢这部分 可以查阅这篇论文, 更深入地研究博弈理论。 不管怎样还有下一个分量。 最后这一项不包含自私信息, 但还有些内容。 它并非像“核”一样无用, 它不仅是相同的数值。 所以它起什么作用呢,我管这个 叫做剩余项信息。为了保持神秘 我们还没厘清这个分量 有何作用。也许可以 暂停视频思考一下。 我来揭秘吧。 这个是剩余信息。 这里出现什么呢? 好的,暂停视频。 每个代理人都无力单独改变 注意一下,这个分量中, 自己的收益。但当对手 改变策略时会怎样呢? 好,我们从这里开始。 假设你是第一位参与者,你的对手 正在采用合作的策略。你可以 选择合作收益是 2,或背叛 收益还是 2。如果仅此而已 你不会在乎的,对吧。 无论选择什么 都不会左右你的决定。 但是你选择合作时 出现什么情况呢? 你选背叛呢? 你选合作,代理人 2 的收益 是正 2 - 不管他自己选了什么。 如果你背叛,代理人 2 就得到 负 2 的收益 - 也不管他自己怎么做。 所以你的决定 影响对方。 所以这个概念在经济学中 被称为外部性。所以外部性 就是施加于另一代理人, 另外的人或另外群体的收益。 这收益是你的行动给别人带来的。 一个简单的例子就是, 我要是大声演奏乐器, 吵到我的邻居,他们就会受到 由我施加的负面外部影响。 我也许在做一个 对于我自己 有很不错的个人收益, 但却给我的邻居带来了负收益。 这就是外部性概念。 所以这个剩余信息分量 我把它,文章作者把它叫做 行为分量, 我把它称为外部性分量。 抱歉这么多名称,我希望 不会把人搞糊涂。 我讲过了这个外部性是你做某事, 结果产生了收益。 结果就是你自己和他人的收益。 外部性就是对他人 产生的收益。 我们再看下“囚徒困境”, 忽略掉“核”那部分。 当我合作时,对我自己并不是 最佳的,不管做什么。 看看那个负 1。 如果你也合作我也合作, 我所得的是负 1。 如果你背叛, 我合作,我得的还是负 1。 记住我们是在看 自私信息那个分量。 在自私信息我们看到, 我不如总是背叛。 背叛总是可以得到个体最佳收益。 如果我自私, 那我总是背叛,这里显示 这种情况。因为我自私, 我不管另一参与者是得 2, 还是负 2,我只关心 个体,我只要我个体 利益最大。 所以根据我们自己的利益, 我们选择背叛。 但这意味互相伤害, 因为背叛就是给对方施加 一个负 2 的收益。 这里参与者 1 在背叛, 参与者 2 得到负 2。 参与者 2 背叛, 参与者 1 得到负 2。 所以听任自己的个人利益, 就互相伤害。如果我们 都合作,我们互相给对方 正 2 的收益,而不是 负 1 这样的自私收益。 可这从全局看是好的。 我们从互相合作中得到好处, 比互相背叛好。所以“囚徒困境” 是一个例证,体现了合作与背叛 的冲突,体现了 个体水平的自私 会把我们带到何处。 它会让我们如何行事。 还有在群体层面应该如何做。 合作是比较好的策略,但个人主义 破坏这一点,使我们最终 选择背叛。 现在我们复习一下。 我们在上一单元讲到的 一报还一报的策略。 这个策略是如何让合作起作用呢? 一报还一报的策略改变了 对局方式,改变的方式之一是 博弈成是可重复的。另一种方式 是策略的改变。如果你使用 一报还一报的 策略,你就不仅仅是使用 合作策略或背叛策略。 你是用的是几乎在可重复博弈中 更高水平的策略。 最终会有什么结果呢? 是不是把外部性带入了 自私的信息中,使得 合作对某个自私的人 变得有吸引力呢? 这是唯一的办法,对吧? 我们假设个体是自私的, 归根结底,无论我们 多么努力想办法, 代理人都会自私自利。 至少在这些假设下, 他们容易合作的唯一途径, 是让合作成为自私的 代理人也愿意做的事。 我几乎无法涉足这些内容。 我认为这太棒了,我应该建议 各位查阅引用的那篇论文。 那里谈到一报还一报策略, 更详细地展示了如何, 事情如何变化, 事情如何运动,某些外部性 最终如何影响自私程度的选择。 这就是一报还一报 和可重复博弈如何 使合作成为可能。我最后 完整地引用那里的规则, 告诉大家怎样创建2x2的对局 的各个分量。 大家可以尝试。实际上 我会布置些额外的家庭作业, 作业是可选的。 各位可以更进一步地探索。 我要求作业要按照这些规则, 建立不同类型的 2x2 博弈对局。 其中合作可以符合 自私的动机,或做不到这一点, 就像我们刚看到的情形一样。 各式各样有趣的例子 大家可以尝试和探索。 我来告诉大家这规则。 这些完整引用的规则实际上 就是数学上的对称, 让整件事情运行。 可是我不打算讨论细节。 对自私分量,每一对 可以变化的个体选择 必须是负的。抱歉这里我落了 一个字。“必须是负的” 不管怎样,我们看到我在此 举了个例子, 参与者 1 选择策略 A, 参与者 2 也选择策略 A, 参与者 1 获得收益是 a。 如果他们切换策略, 他们会得到负 a 的收益。 我们可以看到这个概念 在自私分量里是重复的。 另一方面外部性分量, 别忘了个体无力改变什么。 所以如果参与者 2 选择 A, 你是参与者 1, 无论如何你就只能得到 m。 想得到不同的数值只能是 对手参与者 决定改变他们的策略。 对手代理人改变了策略, 你就得到了先前那个 数的负值,所以参与者 2 通过选择 A,给对方强加效益 m。 如果他们改变,改变成策略 B, 他们就强加给对方负的 m。 再讲清楚一点,如果 m 是 3, 就是 3、3、负 3、 负 3。 可是 m 也可以是负 3, 所以这样就是负 3、 负 3。然后在这边我们有 负的负 3,也就是正 3。 所以是正 3、正 3。 最后“核”那一部分 对每个代理人效益 都是相同的,所以代理人 1 的效益是 j,不管 j 是多少。 代理人 2 的效益是 k, 也不管 k 是多少。 所以这些就是规则。 谢谢大家收看, 我希望讲清楚了。 如果有什么问题, 可以给我发电子邮件, 或在论坛上发问题。 我会很高兴就这些内容, 给大家做进一步的解释。 好,感谢收看。 祝大家愉快,再见。