停用词
此条目可能包含原创研究。 (2012年4月6日) |
在资讯检索中,为节省存储空间和提高搜索效率,在自然语言处理数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如“the、“is”、“at”、“which”、“on”等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像“The Who”、“The The”或“Take That”等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。
作为资讯检索的先驱者之一,Hans Peter Luhn创造了这个短语,并在他的研究中应用这个概念,推动了这个概念的使用[1]。
参见
编辑参考资料
编辑- ^ Luhn, H. P. Keyword-in-Context Index for Technical Literature (KWIC Index). American Documentation (Yorktown Heights, NY: International Business Machines Corp.). 1959, 11 (4): 288–295. doi:10.1002/asi.5090110403.
外部链接
编辑- List of English Stop Words (PHP array, CSV) (页面存档备份,存于互联网档案馆)
- Full-Text Stopwords in MySQL (页面存档备份,存于互联网档案馆)
- English Stop Words (CSV) (页面存档备份,存于互联网档案馆)
- Hindi Stop Words
- German Stop Words (页面存档备份,存于互联网档案馆), German Stop Words and phrases,another list of German stop words
- Polish Stop Words (页面存档备份,存于互联网档案馆)
引用
编辑- Stackoverflow: "One of our major performance optimizations for the “related questions” query is removing the top 10,000 most common English dictionary words (as determined by Google search) before submitting the query to the SQL Server 2008 full text engine. It’s shocking how little is left of most posts once you remove the top 10k English dictionary words. This helps limit and narrow the returned results, which makes the query dramatically faster."