您好,欢迎来到第 5 单元。 本单元是关于幂律分布的。 我们将考虑的核心问题如下: 假设您正在研究某种现象并且您有一组数据。 你怎么知道 如果幂律很好地描述了该数据? 如果是这样,估计幂律指数的最佳方法是什么。 事实证明,这些问题可能非常微妙,而且 很容易以错误的方法来处理它们。 我将在下一个子单元中开始 研究表示数据的不同方式。 我们将讨论直方图,还会讨论 累积分布函数和等级频率图。 然后,我将对一些被认为是根据 幂律分布的现象进行简要调查, 然后我们将开始 研究其中一些推理问题。 假设我们怀疑某事是幂律, 描述分布的估计参数 的最佳方法是什么。 我们还需要 讨论替代方案, 我的意思是,可能有其他分布 比幂律分布更能描述 您的数据, 并且有些分布经常与 幂律分布混淆, 特别是拉伸指数和对数正态分布。 所以我要做的是稍微 谈谈其他分布, 并将它们与幂律进行比较和对比, 然后讨论一些用于在这些不同选项中 进行选择的统计技术。 在我开始之前,关于这个单元的另一两句话。 我会经常 提到幂律 和幂律推断方面的 几篇真正关键的论文, 我已经将这些论文的列表以及指向 pdf 的链接 放在一个子单元或称 为附加资源的部分中。 所以,你可以在那里找到 我提到的所有文件, 这样你就不必四处寻找它们了。 此外,我将提到 一堆统计技术, 我们不会如此投入, 我会一步一步地向你展示如何使用它们。 我认为这是太多的统计数据, 超出了本课程的范围, 但我希望你们中的一些人 会想自己尝试这些东西。 因此,在过去 5 年左右的时间里开发了 一些好的软件, 这些软件的链接也在 这个附加资源部分。 还有一些 Python 代码、一些 R 代码 和一些 Matlab 代码。 因此,如果您想尝试其中的一些东西, 那么这些都是不错的起点。 好的,让我们从 考虑幂律分布开始 研究如何表示数据。 我将通过一个简单的示例来完成此操作, 该示例将引导我们 构建累积分布函数和等级频率图。 你会发现计算起来比说起来容易。 那么,让我们开始吧。