维基百科:机器人/申请/Antigng-bot/30/2

  批准测试运作(50次编辑) --百無一用是書生 () 2021年2月20日 (六) 06:31 (UTC)[回复]
  •   测试已完成
  • 测试范围:所有条目列表前20页(共100,000个条目),涵盖各种类型的条目;
  • 结果:第一次尝试:185笔编辑、第二次尝试:105笔编辑
  • 发现的问题:该任务利用启发式算法尝试修正不正确的日期,其描述能力超过一般正则表达式(即:III型文法),可以比较好地应对各种不正确使用的情况,但如早前的申请所述,可能会导致一些意料之外的错误处理;经人工复查,测试编辑存在下列问题
      1. 修正后的日期格式一律为ISO格式,这可能不符合英文站MOSDATE指引关于日期格式应“先到先得”、“全条目统一”的要求;然而本站MOSDATE指引无此“先到先得”之要求,且本站绝大多数条目选用ISO格式的日期,更正为ISO格式导致条目格式统一的概率远大于破坏条目格式统一的概率;过往讨论和引用模板的提示亦倾向于使用ISO标准格式。考虑到两站共识的差异,本次任务若批准,仍将维持修正目标为ISO标准格式,不考虑修改;
      2. 修正后可能会删去一些不相关的字串,如Special:Diff/64406914,该等修改并无害处(因人工处理结果也是直接删去这些字串),不考虑改进;
      3. 下列七个条目存在因出版物编号而导致的错误修正,已全数回退:7次回退
  • 补救方式:在修正不合规范的日期串之前,强制排除具有出版物编号意味的字符(版、卷、期、印、刷、稿、编、第):若待处理日期串含有上列任何一个字符,则直接跳过不送入上述启发式算法处理;
  • 修正结果:工作范围与第一次尝试相同的第二次尝试没有导致类似的错误编辑
  • 结论:本次测试分两个阶段,工作范围是条目列表前100,000条,涵盖各种类型的条目中各种类型的日期错误,经修正后可认为连续编辑270次无明显错误,按此比例推算,全部处理完产生的错误编辑总数不超过25笔。日后会加强人工抽查,若发现其它意料之外的错误模式会及时修正。望予以批准。--Antigng留言2021年2月20日 (六) 17:53 (UTC)[回复]
    其实就是选择宁可漏掉也不出错,还是宁肯出错也不漏掉。我认为,正则似乎更不容易出错,但可能漏掉?你的算法似乎会出错,但不会漏掉?不知道我的理解对不对?--百無一用是書生 () 2021年2月21日 (日) 11:58 (UTC)[回复]
    • 可以这样理解。过去Liangent-bot采用正则表达式去匹配特定的错误模式(如匹配"yyyy/mm/dd"、"yyyy年0m月dd日"这两种特定的错误格式,将其分别修正为"yyyy-mm-dd"和"yyyy年m月dd日"),假阳性率较低、但假阴性率较高;本人则是试图读入待修正的日期字串,去猜测其中数字的含义(比如,一个四位数后跟着一个“年”字,就猜测这是一个年份)从而提取出年月日参数,以标准格式输出,理论上可能有较高的假阳性率(猜错),但同时也能应对诸如这类事先难以预料的误用。--Antigng留言2021年2月21日 (日) 12:29 (UTC)[回复]
      我总觉得在需要修改的时候,我会选择宁可漏掉也不出错--百無一用是書生 () 2021年2月22日 (一) 02:26 (UTC)[回复]
      上面分析的是理论情况。实际上无论选择何种策略都要保证尽可能低的假阳性率和假阴性率,根据测试结果将事先没有考虑到的意外情形纳入考量。例如,采取第一种策略的时候,需根据测试结果补充冷门的错误日期格式,以降低假阴性率。采取第二种策略的时候,需根据测试结果排除意料之外的假阳性案例。
      具体就这个任务而言,按上述补救方法排除特定字符以后在整个主名字空间空运行产生的所有待修正的日期字串如该页面所示,共1.6万条。经人工检查未发现明显的错误修正,因而可以认为其在处理存量任务上是不会因为确保不漏掉而导致出错的。至于增量方面,早期获批的Wikipedia:机器人/申请/Antigng-bot/30也使用完全相同的算法处理格式错误的日期字串,近若干月的正式运行结果经人工检查后亦无明显错误处理,故可以认为增量任务导致意料之外的错误模式的可能性很小。何况这类错误即使发生,也很容易通过定期的人工抽查而排除。--Antigng留言2021年2月22日 (一) 13:44 (UTC)[回复]
  正式批准运作 --百無一用是書生 () 2021年2月23日 (二) 03:03 (UTC)[回复]