维基百科:来源覆盖度检查

维基百科可供查证方针和列明来源指引清晰的阐述了编者最好以脚注的形式列出来源。可以近似的将每个脚注对应的平均正文长度作为来源覆盖度的指标;每个脚注平均正文长度越长,则来源覆盖度越低,反之则来源覆盖度越高。

一般而言,一个好的条目,最好能做到每个可能被质疑的论断都有来源支撑。这可以大致理解为,平均每100个汉字(300字节)就应当有一个脚注列明来源,而如果超过200个汉字(600字节)对应一个脚注,可能意味着条目存在潜在的问题。这个结论并不绝对,存在一些不适用的情形。可以通过自动化工具进行来源覆盖度检查。相关数据也显示,典范条目优良条目通常有着较高的来源覆盖度,而一些相对低质量的条目则更可能有着较低的来源覆盖度。

100个汉字和200个汉字

编辑

“100个汉字”的结论来自于以下推理:每个可能被质疑的论断都应有来源支撑;而在现代汉语中,每个论断通常可以用大约100个汉字阐述清楚。这一估算实际上比较保守,很多情况下更少的汉字就足够了;可以参考本论述的导言部分,大约300个汉字,对应了至少6个论断,平均每个论断50个汉字。可能存在一些章节,特别是叙述某个过程时,一个来源足以支撑;也可能一些敏感的论断,其中每个小的事实都需要一个来源支撑。然而,根据统计原理,当一个条目有足够多数量(通常至少20个)的论断时,更可能(更高概率)发生的情形是,有的章节需要更多来源,有的章节需要较少来源,但平均值相对固定。

类似的,我们还可以进一步假设每个论断对应的脚注数量服从泊松分布,那么超过200个汉字没有脚注则很有可能意味着条目存在潜在的问题,需要仔细甄别。可能揭示的问题有:

  • 来源缺失,例如整段内容无来源
  • 点列式条目或过多琐碎内容,且没有列明来源
  • 原创研究
  • ……

不适用的情形

编辑

条目的导言不受来源覆盖度的要求。根据格式手册序言章节列明来源的要求,复杂的、正在发生的、或有争议的主题可能需要列明来源;其他的则列出少量甚或不用列出。因此,常见的情形是导言中甚少列出来源。

请避免引证过头英语Wikipedia:Citation overkill。来源覆盖度的假设是每个断言都有一个来源支撑,在这一前提下平均100个汉字有一个脚注;如果出现引证过头的情形,虽然平均下来100个汉字有一个脚注,但是其实条目中的某些论断是没有来源支撑的。

来源覆盖度检查只适用于条目;例如,本论述没有引用任何来源。

自动化工具

编辑

来源覆盖度检查提供了一个自动化工具,可以通过复制粘贴的方式检查一段Wiki标记语言的来源覆盖度。当发现一处脚注对应了超过200个汉字(600字节)时,工具会自动加以提醒。目前工具只支持<ref>和{{r}}的形式;其余形式,例如{{notetag}}和{{harvnb}}的使用者通常也比较熟悉列明来源的要求,较少需要使用工具辅助判断。

相关数据

编辑

下面列出了一些典范条目优良条目使用自动化工具得到的来源覆盖度检查结果。请注意,其中的单位是字节,需要除以3方可得到汉字字数。

  •  言论的边界的版本46752667
  • 正文长度:15285 ;脚注数量:97 ;每个脚注平均正文长度:158
    • 注意:发现一处脚注对应了 678 个字符,从以下位置开始:是一本由记者安...(序言章节不受要求)
  •  德宏芒市机场的版本47623195
  • 正文长度:19507 ;脚注数量:131 ;每个脚注平均正文长度:149
    • 注意:发现一处脚注对应了 653 个字符,从以下位置开始:==设施==...(图片代码占据多个字节)

另一方面,对由于来源不足被撤销的优良条目来源覆盖度检查,明显存在问题。

  •  蓝调的版本30572329
  • 正文长度:26473 ;脚注数量:7 ;每个脚注平均正文长度:3782
    • 注意:发现一处脚注对应了 630 个字符,从以下位置开始:是一种基于五聲音...
    • 注意:发现一处脚注对应了 1185 个字符,从以下位置开始:今天的藍調可以看作是...
    • 注意:发现一处脚注对应了 10806 个字符,从以下位置开始:与当时的其它音乐纪录...(将近4000字没有来源)
    • 注意:发现一处脚注对应了 1099 个字符,从以下位置开始:写 道,两位演唱家都...