維基百科:標註/revscoring doc

可見https://github.com/wikimedia/revscoring/blob/master/revscoring/languages/english.py

基於python的正則規則,準備用於Special:最近更改內破壞傾向和質量評判過濾器,效果見en:Special:RecentChanges。注意:r表示不轉義,可能用到的元字符為*+?[]()

本頁面內的所有規則均為手動製造,來源為以下列出的文章和之前機器學習的數據。目前,規則尚未被使用,您可以自行補充或修改以下規則,可能需要簡單學習使用正則表達式,或將要添加的內容簡單描述並注釋。

(In a nutshell, ENG) These rules are made by humans, not robots.

參見:

目前的問題:

  • 簡體與繁體轉換是否需要?

badword_regexes

編輯

不應出現的詞語,可以是髒話或明顯破壞

# r""
# English
r"[fF]uck",

# 
r"妈屄",
r"妈逼",

# 宣传与广告
r"本台",
r"本公司",
r"代[刷练抢]",
r"强势回归",
r"超值",
r"一条龙",
r"一夜情",
r"(世界|国际)一流",
r"用户(第一|满意|至上)",
r"核心(价值|团队|宗旨)",
r"服务(小姐|范围|项目|理念)",
r"时彩",
r"总代理",
r"[偷盗破窃][qQσ扣]",
# 仍可扩充

# 歧视
r"小日本",
r"台湾狗",
r"五毛",
r"共产中国",
r"流氓国家",
r"支那",
r"人渣",
r"我去",

# 翻译与文言
r"提出的在",
r"据报",
r"曰",

informal_regexes

編輯

不應出現在條目,但在討論中經常出現的詞語

# r"",
r"互煮",
r"23+",
r"em+",
r"谢谢",
r"提删",
r"求助",

words_to_watch_regexes

編輯

需要關注的詞語,可能是違反方針指引或用語過於主觀

# r"",
# 地域中心
r"[我外]国",
r"[本外][港地]",
r"当局",

# 时间
r"最近",
r"[今去前昨上近]几?个?[天日周月年]",
r"过去.*[天周月年]",
r"刚+",
r"刚才",
r"一会儿",

# 情绪化
r"强烈",
r"只不过",
r"只是",
r"就算",
r"尽管如此",
r"[实本]质[上地]",
r"基本[上地]",
r"显然",
r"显而易见",
r"可笑",
r"指出",
r"有感",

# 主客体模糊
r"专家",
r"(部分|一些|许多|少部分)(人|学者|声音)",
r"(有些|一些|局部|大部分|少部分)(国家|地区|省份|州)",

# 华而不实
r"最(重要|关键|特别|好|坏|完美|出色|突出)",
r"最.*影响力",
r"荣获",
r"[高多低]达",
r"据.*称",

# 破坏嫌疑
r"官方网[址站]",