斯肯索普問題

网路上的脏话过滤器所引发的问题

斯肯索普問題(Scunthorpe problem)是指在電子郵件過濾搜索引擎中,由於文本包含一個或多個看似有褻瀆或非法含義字符串(或子串),導致網站、電子郵件、論壇帖子或搜索結果被無意間阻攔的現象。受此問題影響最多的是名稱、縮寫和技術術語等。

維基百科中的斯肯索普問題示例,無法註冊的原因是用戶名中識別到cunt

這個問題的產生源於電腦雖然能輕易識別文件內的文本字符,但是沒有相當的能力來解釋這些文字的含義;對此電腦需要能理解廣泛的語境,甚至跨越多個文化,而這是一項極其困難的任務。因此,廣泛的阻擋規則可能會導致對無辜短語的誤判,出現錯誤攔截的情況。

詞義和起源 編輯

該問題源於1996年的一次網絡事件,當時美國在線(AOL)的髒話過濾器阻止了英格蘭北林肯郡斯肯索普市(Scunthorpe)的居民在AOL上創建賬戶,因為該市名中包含了字符串「cunt(,陰道)」。[1]在2000年代初,谷歌安全搜索過濾器也犯了同樣的錯誤,阻止了人們搜索包含斯卡恩索普市名稱的本地企業或網站,故這一問題由此得名。[2]

解決措施 編輯

由於創建一個能夠理解上下文中的詞組的過濾器非常困難,因此斯肯索普問題很難完全解決。[3][4]一種常見的解決方案是創建一個白名單,其中包含已知的容易產生斯肯索普問題的詞組,任何出現在白名單上的單詞都將被過濾器忽略,即使它們包含的文本在其他情況下可能是不允許的。[5]另一種常見的解決方案是通過貝葉斯公式來計算單個詞組成為敏感詞的概率,進而組合分析一段話中包含敏感詞的概率,但這一方法需要對大量語料數據的分析作為支持。[6]

事例 編輯

敏感詞過濾器引發的錯誤包括:

中國大陸以外的斯肯索普問題 編輯

  • 1998 年 4 月,傑夫-戈德(Jeff Gold)試圖註冊域名 shitakemushrooms.com,但由於其中包含敏感詞,他被互聯網絡信息中心(InterNIC)的過濾器阻止。[7]
  • 2000 年,一則關於網絡過濾軟件的加拿大電視新聞報道發現,蒙特利爾城市社區(Communauté Urbaine de Montréal,法文)的網站被完全屏蔽,因為其域名是法文縮寫CUM (www.cum.qc.ca ),而「cum」(除其他含義外)是精液的英語俚語。[8]
  • 2008年,新西蘭華卡塔尼鎮(Whakatane)的免費無線網絡服務過濾器由於其語音分析認為「whak」聽起來像髒話,因此屏蔽了涉及該鎮名稱的搜索;該鎮名稱為毛利語,在毛利語中,「whak」讀音近似「fuck(操)」。隨後,該鎮將鎮名加入了過濾器的白名單中。[9]
  • 2010年6月,推特在一個盧森堡用戶開通賬戶並發布他的第一條推文29分鐘後,就將其封鎖了。該推文寫道:「終於!一對美麗的藍脖山雀已經搬進了我的鳥屋!(Finally! A pair of great tits (Parus major) has moved into my birdhouse!)」雖然該用戶在推文中使用了拉丁學名來表明他是在談論鳥類,但推特並沒有為他解封賬戶。[10]
  • 2020年10月,在一次古生物學會議上,推特的敏感詞過濾器屏蔽了「骨頭(bone)」、「陰毛(pubic)」和「溪流(stream)」等詞語。[11]
  • 2021年1月,由於錯誤地將德文郡普利茅斯(Plymouth Hoe)標記為厭惡女性,Facebook向被禁言和封號的用戶道歉。[12]

中國大陸的斯肯索普問題 編輯

參考來源 編輯

  1. ^ Neumann, Peter G. The RISKS Digest, Volume 18 Issue 07. The RISKS Digest, Volume 18 Issue 07. 1996-04-25, 18 (07) [2023-02-18]. (原始內容存檔於2022-04-11) (英語). 
  2. ^ McCullagh, Declan. Google's chastity belt too tight. CNET. [2023-02-18]. (原始內容存檔於2023-02-18) (英語). 
  3. ^ Fri, Aug 31st 2018 12:09pm-Cathy Gellis. The Scunthorpe Problem, And Why AI Is Not A Silver Bullet For Moderating Platform Content At Scale. Techdirt. 2018-08-31 [2023-02-18]. (原始內容存檔於2023-02-18) (美國英語). 
  4. ^ Life on the Internet Is Hard When Your Last Name is 'Butts'. www.vice.com. [2023-02-18]. (原始內容存檔於2023-02-18) (英語). 
  5. ^ Veale, Tony. Your Wit Is My Command: Building AIs with a Sense of Humor. MIT Press. 2021-09-07. ISBN 978-0-262-04599-5 (英語). 
  6. ^ 6.0 6.1 Vol.014 如何科学地消灭敏感词|回形针, [2023-02-18], (原始內容存檔於2023-02-18) (中文(中國大陸)) 
  7. ^ Festa, Paul. Food domain found "obscene". CNET. [2023-02-18]. (原始內容存檔於2023-02-18) (英語). 
  8. ^ Foire aux questions. web.archive.org. 2012-10-21 [2023-02-18]. 原始內容存檔於2012-10-21. 
  9. ^ F-Word Town's Name Gets Censored By Internet Filter - Switched. web.archive.org. 2008-12-01 [2023-02-18]. 原始內容存檔於2008-12-01. 
  10. ^ Luxembourg new Twitter user blocked after 29 minutes. 22 June 2010. Retrieved 12 June 2010.  [失效連結]
  11. ^ A Profanity Filter Banned the Word 'Bone' at a Paleontology Conference. www.vice.com. [2023-02-18]. (原始內容存檔於2021-02-23) (英語). 
  12. ^ Morris, Steven. Facebook apologises for flagging Plymouth Hoe as offensive term. The Guardian. 2021-01-27 [2023-02-18]. ISSN 0261-3077. (原始內容存檔於2021-01-29) (英國英語). 
  13. ^ Chin, Josh. Following Jiang Zemin Death Rumors, China's Rivers Go Missing Online. WSJ. [2023-02-18]. (原始內容存檔於2023-02-18) (美國英語).