在我认为的首次革命来正式接近因果问题之后, 随着逻辑推理的出现,第二次(可以这么说)因果关系领域的革命来了。 在试图量化机会(偶然性)的概念, 或者说某事发生毫无原因 而不是被产生或有原因的情况下。 这个问题存在各种有趣的认识论挑战。 例如, 科学,尤其是经典力学, 确定一切事物都有原因,没有偶然性。 这可能意味着某些看似偶然发生的事情只是表面上如此, 因为它的随机性碰巧与所关注的观察异于普通,人们可以找到一个原因。 意大利和法国的数学家,如Cardno、Pascal、Ferma和Borel 是第一个尝试以数学方式描述機率的人, 我们感激他们,许多概念和思想今天仍在概率和统计等领域使用。 随后的进展由讲德语的数学家如雅格布·伯努利 (Jacob Bernoulli) 和理查德·冯·米塞斯 (Richard von Mises) 则在更晚时期提供了 现代概率论的基础。 但正是安德烈·柯尔莫哥洛夫 (Andrey Kolmogorov) 提供了我们今天所知的概率论的最终版本, 其当前形式被称为数学中的公理化。 有趣的是, von Mises (冯·米赛斯)和 Kolmogorov(柯尔莫哥洛夫 )都觉得他们通过 概率分布得出了对随机性的有限和弱化的描述。 冯·密斯虽然没有一些关键概念来更好地描述随机性, 但Kolmogorov通过结合计算领域的思想提出了我们今天所知的数学定义的随机性, 我们将在课程中介绍和学习。 古典概率和传统统计的目的 是通过计算概率分布 来帮助因果推断问题。 对统计数据处理因果关系的方式的一个主要批评是 它依赖于基于这些概率分布的假设和期望。 事实上,如果不知道产生的成本, 例如连续出现 5000 只白天鹅的成本, 统计学家可能会通过简单地计算基于看到白天鹅和其他颜色的次数的分布 来猜测下一只天鹅的颜色。 基于传统统计学,黑天鹅突然出现在白天鹅的序表中 将是一个很大巨大的惊喜, 并被认为是奇特的,它可能确实如此。 然而,如果有一个天鹅的主人按照特定的顺序释放天鹅, 并且决定先放生所有白色天鹅,然后再放生黑色天鹅,我们就会错误地认为天鹅是随机出现的, 而且当我们第一次看到黑天鹅时,我们会认为它是一个奇特的现象。换句话说,了解或试图找出 一个与随机性假设相隔离的产生机制模型,将有助于提供更好的解释和更准确的预测手段。 假设中移除的生成机制模型, 将具有导致更好的解释和做出更准确预测的方法的优势。 当然,尝试是一回事,实现是另一回事。 但是,统计数据并不是为了生成候选模型,而是为了以概率方式描述数据。 限制可能包括将原因与效果混淆。 这是一个需要解开的问题,普遍地造成某些情况的共同成本, 这在科学领域经常发生,也是设计实验时的主要关注点之一。 在其他情况下, 可能根本不清楚哪些是因,哪些是果。 例如,一些研究可能声称看很多电视的孩子最暴力。 他们会说,很明显,电视让孩子们变得更加暴力。 但这很容易由其他原因产生。例如, 有暴力倾向的孩子可能比不那么暴力的孩子更喜欢看电视,因为他们变得孤僻。 在儿童实验中,需要引入所谓的对照实验, 以弄清孩子们是在实验前就已经有暴力倾向, 还是因为暴力性格而变得更加沉迷于电视。 这些保护措施称为受控实验。 另一个问题是,我们不能将同一个孩子重新设置为暴力行为, 然后在其他环境中将其设置为非暴力行为,反之亦然。因此,实验必须在已经 存在的人群中进行, 这些人群必然会受到其他无法完全隔离的非定向原因的影响。 然而,控制实验的目的是控制最明显的偏差或混淆原因。 我们是否得出了更有意义的结论和结果? 控制实验总是这样的形式:如果其他事情发生或没有发生什么, 或者我们对实验施加或消除一些其他影响,那么会发生什么? 皮埃尔-西蒙拉普拉斯是第一个在面对完全缺乏知识时使用 所谓的统一先验的人。 即假设所有事件发生的可能性均等的分布。 他引入了一个被称为 “理由不足原则”的原则,也被称为“冷漠原则”。 不充分理由原则在本质上类似于奥卡姆剃刀,因为它是一个指导原则, 没有强有力的证据支持或反对它。 该原则指出,如果有 n 个不可区分的可能原因, 除了它们的名字,那么每个可能的原因 都应该被分配一个概率 = 1/n, 即等概率,并且不应该被丢弃或排除。 虽然理由不充分原则是要遵循的合理原则, 我们将挑战一些假设,因为尽管可能希望保持所有可能的原因 都具有非零概率,正如另一个原则所建议的那样, 称为多重解释原则, 确定如果几个理论与观察到的数据一致, 我们应该保留它们, 有充分的理由为不同的解释分配不同的概率,而不是为每个解释分配相同的概率。 事实上,冷漠原则似乎在某种程度上与奥卡姆剃刀相矛盾,奥卡姆剃刀建议 如果有理由的话,不要将等概率分配给过于复杂的原因。 传统统计中所做的所有这些假设表明 经典概率处理因果关系的方式 存在高度主观的成分, 特别是在缺乏有关生成源的数据和知识的情况下,这几乎是一般情况。 尽管如此,所有这些方法都被广泛接受和使用,例如在机器学习领域。 我们将挑战均匀先验的使用, 即在假设研究因果系统而不是随机系统(也称为随机)时 使用均匀分布作为第一个假设。 例如,我们已经证明, 挑战普遍使用这些统一先验有趣的优点 包括生物进化趋同的加速相比于假设均匀随机突变。 我们将在最后一个模块中介绍一些内容,因此我们将详细讨论所有这些内容。 约翰·梅纳德·凯恩斯 (John Maynard Keynes) 在 20 年代初 首次提出概率应该被解释为对某个命题的主观信念程度的想法。 但即使在今天,香农熵的方法比他们应该更认真地对待。 按照克劳德·香农 (Claude Shannon) 的介绍, 熵通常被表示为发送消息时的意外程度。 正如我们将看到的,香农熵是对一个人自身知识缺乏的不确定性程度的度量, 而不是与过程的可能原因相关的任何客观不确定性。 因此,与一般主张不同,我们将证明 香农熵根本不是语法度量,而是高度语义的。 然而,这并不意味着它更好或更坏。 香农的熵很有趣,因为它引入了逻辑和计算 作为信息操作的描述。 我们稍后将更详细地解释其中一些表征随机性 的方法通常非常脆弱。 我们将通过示例来说明这些内容,但重要的是您对这些概念已经有了一些概念。 统计学中的一个基本概念是相关性,这不仅是统计学中的一个概念, 而且在某种程度上实际上是统计学的核心。 统计学就是以规律性的形式发现统计模式。 正如我们将看到的任何更复杂的事情,而推断数据因果机制的统计方法都会错过这一点。 例如,统计规律可以是某些数据点 位于平面或时间序列上以显示某事物的周期的趋势。 这些是典型的正相关和负相关图。 想想我们从中获取一些数据的两个过程。 它可以是一个时间序列。 时间序列是按时间排序的数据点的集合。 想象一下,您想看看这两个系列是否相关或以某种方式存在因果关系。 将 x 轴视为一个序列, 将 y 轴视为另一序列。 然后我们可以看到数据点是否对齐,这意味着它们以类似的方式分布。 相关值传统上用希腊字母表示,在本例中为 Rho,通常在 -1 和 1 之间给出。 当 Rho 接近 1 或 -1 时,数据呈正相关或负相关。 这些图称为散点图。 测量相关性的方法有多种,但它们都非常相似,都在于计算数据点之间的距离。 最流行的方法之一称为皮尔逊相关性,它衡量数据点值之间的相关性。 另一种流行的相关性是肯德尔或斯皮尔曼相关性,它们在仅顺序情况下衡量相关性。 由于前面提到的局限性, 传统统计常常会大概率地导致假阴性和假阳性的虚假模型。 假阳性或假阴性是 数据中看似真实但实际上并非如此的规律。 在因果关系上留下了错误的印象。 这里有一些假阴性的例子, 这意味着由Rho量化的相关测试表明x轴和y轴之间没有相关性。 然而,仅通过观察这些图表,人们就可以立即看到结构, 暗示着数据点在轴线上分布的方式中发生了有趣的事情。 然而,人们可以看到所有这些图表中Rho值几乎为零, 表明没有发生任何有趣的事情。 还有其他一些例子,相关性不仅为零, 而且所有的图表都具有完全相同的Rho值,但它们显然非常不同,它们具有非常不同的结构。 根据斯坦福哲学百科全书, 试图通过统计模式来分析因果关系被称为“因果关系的规律性理论”。 统计规律只是现象可能显示的可能属性的一个子集。 统计方法为数据的分布提供了解释, 但让科学家们来解释数据和 建立模型的任务较为繁重。 传统上,科学家所做的是拟合一条曲线,然后将该曲线的方程作为生成模型, 既解释了数据的分布,又用于进行预测。 例如,在正相关的典型情况下,拟合一条直线并不困难。 这被称为线性拟合,因为通过一条直线进行 拟合的函数是一次多项式。 然而,通过使用与数据点数量成比例的多项式, 人们总是可以强制一条曲线恰好经过任意数量的数据点。 通过增加多项式的次数,可以使曲线经过或接近数据点。 所有这些传统统计方法在因果关系方面的限制 都可以总结为该领域最常见的一个观点,即关联并不等于因果, 或者相关并不意味着因果。 但是缺乏相关性并不意味着缺乏因果关系。 换句话说,你可以将曲线拟合到一些数据点上, 并不一定意味着这条曲线与这些数据点有真正的关联。 通过使用一种非常有趣的技术,一篇最近的论文展示了 相关性可以被欺骗的程度。所有这些分散图都具有相同的值。也就是说, 均值标准差和皮尔逊相关性都保留了两位小数。 但显然,它们似乎并不是随机生成的。 某些版本的香农熵可以区分一些情况,但如果没有使用 与统计学不同的方法来推断潜在的概率分布,它们大多数情况下会失败。 我们将在接下来的模块中更详细地解释这些概念, 但请记住,这是一个普遍存在的问题,传统统计学和经典概率学始终会提出。 另一个例子用来对比机械模型和统计描述, 根据现象的统计描述,车辆到达自由道路上的任何一点 都遵循所谓的泊松分布。 这是因为分布在绘制时可以具有特征形状之一是泊松分布。 然而,统计方法描述的是机械成本的影响,而不是成本本身。 它没有提供任何关于生成机制的线索。 有时它可能提供一些暗示,关于原因留给科学家进行解释, 但统计学本身并不提供任何模型。 泊松分布产生的原因是较慢的驾驶员导致后面累积较快的驾驶员, 在高速公路上形成车辆连片, 并在大约相同的时间到达加油站。 但是,泊松分布不会导致车辆累积的方式,也不会提出它是如何发生或为什么发生。 相比之下,机械性方法试图提供一个可能有助于设计方式的因果模型。 因为它指出可以改变以达到不同目的的机制, 概率和统计学 在因果关系研究中引领了一场革命。 但是它们在某种根本的方式上已经用尽了在现代科学中取得进一步进展的努力。 这门课程的目的是试图补充和提供一种 替代传统的统计学和经典概率的方法。 我们将看到我们称为算法信息动力学 提供了更好地处理和揭示机械原因的有趣途径。