语言资源
語言資源是指語言處理(自然語言處理)時所要用到的資源[1]。除此之外,語言資源亦是語言學的研究材料。一種語言的文字材料以及其被錄下的發音都是它的資源,例如用粵語白話文寫成的文字材料是粵語的語言資源,但白話文基於官話,白話文文字材料就不是粵語的資源。某種語言的語料庫、維基百科以及社交媒體等都可以視為某種語言的語言資源。
語言資源對於自然語言處理以及生成式人工智能來講不可或缺,因為讓電腦處理一門語言,通常都要讓電腦讀取大量文字。例如OpenAI在開發ChatGPT的時候,至少就用到了上億的英文文字。
参考文献
编辑- ^ LD4LT (2020), The Metashare Ontology as Created by the LD4LT Community Group (页面存档备份,存于互联网档案馆), W3C Community Group Linked Data for Language Technology (LD4LT), Development branch, version of Mar 10, 2020