维基百科你已经是个大百科了，该自己学会用ML识别原文出处了

2023-01-17 发布在维基百科代做1178

维基百科可能是我们认为比较客观真实的材料了，但它包罗万象却又会引起一些小问题，例如很多句子或说法提供不了引用出处。那么机器学习在预测引用，并给出引用原因方面就显得非常重要，它会让这一自由的百科全书更加完美无瑕。

维基百科代编辑

让维基百科保持高质量的一个关键机制就是内联引用的使用。通过引用，读者和编辑者可以确定一篇文章中的信息准确反映了其来源。正如维基百科的可验证性原则所要求的，「受到质疑的材料，或者很可能受到质疑的材料，以及所有的引文，都要具有可靠的、已发布的来源」，没有来源的材料应该被删除，或者使用「需要引用」的标记来提出质疑。

然而，决定哪些句子需要引用可能不是一项简单的任务。一方面，编辑者被强烈要求避免为很明显的或者常识性的信息添加引用——例如「天空是蓝色的」。另一方面，有时候天空并不一定是蓝色的——所以或许我们还是需要一个引用？

将这个问题扩大到整个百科全书的规模可能会变得难以应付。维基百科编辑者的专业知识很有价值，但他们的时间却是有限的，那么他们的引用工作应该集中在哪些类型的事实、文章和主题上呢？此外，最近的统计表明，相当一部分比例的文章只有很少的参考文献，英文维基百科中四分之一的文章根本就没有任何参考文献。这意味着，有大约 35 万篇文章包含一个或多个需要添加引用的标记，而且我们可能遗漏了更多。

我们最近设计了一个框架，帮助编辑者在维基百科中识别哪些句子需要引用，并且确定需要引用的优先顺序。通过针对英语、意大利语和法语维基百科的编辑者们开展的一项大型研究，我们首先确定了维基百科文章中单个句子需要引用的共同原因。然后我们使用这项研究的结果来训练一个机器学习模型分类器，它能够预测英语维基百科中任何一个给定的句子是否需要一个引用，以及为何需要引用。这个模型将在 3 个月内部署到其他语言的版本中。

通过识别维基百科获取信息的位置，我们能开发系统，以支持志愿者驱动的验证和事实检查，从而有可能提升维基百科的长期可靠性，抵御信息偏差、信息质量的差距以及虚假宣传。

我们为何要引用？

为了教会机器如何识别不经验证的陈述，我们首先要将句子需要引用的原因进行系统的分类。

我们首先检查了与英语、意大利语和法语维基百科中与可验证性相关的政策和指南，并尝试特征化这些政策中的标准，即是否添加引用的标准。为了验证和丰富实践的集合，我们要求来自于这三个语言社区的 36 名维基百科编辑者参与试点实验。我们使用 WikiLabels 收集了编辑者们对维基百科文章中句子的反馈：编辑者要决定一个句子是否需要引用，并且以自由形式的文本给出他们的理由。

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

维基百科代编辑维基百科编辑维基百科 wiki百科

维基百科你已经是个大百科了，该自己学会用ML识别原文出处了

相关文章

热门

【服务导航】

随机

标签

维基百科你已经是个大百科了，该自己学会用ML识别原文出处了

相关文章

热门

【服务导航】

随机

标签

微信扫一扫打赏