维基百科可能是我们认为比较客观真实的材料了,但它包罗万象却又会引起一些小问题,例如很多句子或说法提供不了引用出处。那么机器学习在预测引用,并给出引用原因方面就显得非常重要,它会让这一自由的百科全书更加完美无瑕。

维基百科代编辑

让维基百科保持高质量的一个关键机制就是内联引用的使用。通过引用,读者和编辑者可以确定一篇文章中的信息准确反映了其来源。正如维基百科的可验证性原则所要求的,「受到质疑的材料,或者很可能受到质疑的材料,以及所有的引文,都要具有可靠的、已发布的来源」,没有来源的材料应该被删除,或者使用「需要引用」的标记来提出质疑。


然而,决定哪些句子需要引用可能不是一项简单的任务。一方面,编辑者被强烈要求避免为很明显的或者常识性的信息添加引用——例如「天空是蓝色的」。另一方面,有时候天空并不一定是蓝色的——所以或许我们还是需要一个引用?


将这个问题扩大到整个百科全书的规模可能会变得难以应付。维基百科编辑者的专业知识很有价值,但他们的时间却是有限的,那么他们的引用工作应该集中在哪些类型的事实、文章和主题上呢?此外,最近的统计表明,相当一部分比例的文章只有很少的参考文献,英文维基百科中四分之一的文章根本就没有任何参考文献。这意味着,有大约 35 万篇文章包含一个或多个需要添加引用的标记,而且我们可能遗漏了更多。


我们最近设计了一个框架,帮助编辑者在维基百科中识别哪些句子需要引用,并且确定需要引用的优先顺序。通过针对英语、意大利语和法语维基百科的编辑者们开展的一项大型研究,我们首先确定了维基百科文章中单个句子需要引用的共同原因。然后我们使用这项研究的结果来训练一个机器学习模型分类器,它能够预测英语维基百科中任何一个给定的句子是否需要一个引用,以及为何需要引用。这个模型将在 3 个月内部署到其他语言的版本中。


通过识别维基百科获取信息的位置,我们能开发系统,以支持志愿者驱动的验证和事实检查,从而有可能提升维基百科的长期可靠性,抵御信息偏差、信息质量的差距以及虚假宣传。


我们为何要引用?


为了教会机器如何识别不经验证的陈述,我们首先要将句子需要引用的原因进行系统的分类。


我们首先检查了与英语、意大利语和法语维基百科中与可验证性相关的政策和指南,并尝试特征化这些政策中的标准,即是否添加引用的标准。为了验证和丰富实践的集合,我们要求来自于这三个语言社区的 36 名维基百科编辑者参与试点实验。我们使用 WikiLabels 收集了编辑者们对维基百科文章中句子的反馈:编辑者要决定一个句子是否需要引用,并且以自由形式的文本给出他们的理由。