Common Voice

Mozilla的語音資料集

Common Voice是由Mozilla基金会所发起的群众参与项目,旨在为语音识别软件建立自由数据库。这项项目受到志工们的协助,以麦克风来进行录音及分类他人所录制的声音。收集的句子及语音都将收录至以CC0授权发布至公有领域的数据库当中。这项授权许可让程序员们能不受限制或成本地将数据库使用于语音识别的应用程序当中。

Common Voice
开发者Mozilla基金会
首次发布2017年6月19日,​7年前​(2017-06-19
源代码库https://github.com/mozilla/voice-web
语言多语言(语言列表
许可协议CC0
网站commonvoice.mozilla.org
使用Firefox开启的Common Voice繁体中文主页

宗旨

编辑

Common Voice旨在提供多样化的语音样本。根据Mozilla的首席创新官Katharina Borchert英语Katharina Borchert所说,当今有许多类似的项目都是从公众媒体来获取资料集,但这些收录内容以训练有素的专业人士或是男性居多,并无法完全代表女性,或是说话带有明显口音的人。[1]

语音数据库

编辑

第一个公开的资料集于2017年11月发布。全球共超过2万名用户录制了500个小时的英文句子。 [2]

2019年2月,第一批语言对外公开发布。包括了18种语言:英语法语德语普通话,但也包括不太流行的语言,如威尔士语卡拜尔语。整体包括了4.2万多名贡献者近1400小时的录音资料。 [3]

截至2020年7月,该数据库已经收集了54种语言共7226小时的录音,其中5591小时已经经过志工们的验证[4]。其中英文、德文、法文、意大利文和西班牙文,就有超过5000位的语音贡献者。[5]

2021年5月,在完成新增卢旺达语的工作后,获得了比尔及梅琳达·盖茨基金会德国国际合作机构英国外交、国协及发展事务部针对史瓦希利语语音收集的捐助,并希望以此能够带动更多东非语系的加入。 [6]

2022年9月宣布,加纳契维语是第100种被新增进Mozilla Common Voice数据库的语言。[7][8]

参见

编辑

参考

编辑
  1. ^ Why do we gender AI? Voice tech firms move to be more inclusive. The Guardian. 11 January 2020 [19 April 2020]. (原始内容存档于2022-12-19). 
  2. ^ Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset. blog mozilla.org. November 29, 2017 [2022-12-19]. (原始内容存档于2017-11-29). 
  3. ^ Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages. VentureBeat. February 28, 2019 [2022-12-19]. (原始内容存档于2019-03-04). 
  4. ^ Mozilla Common Voice updates will help train the ‘Hey Firefox’ wakeword for voice-based web browsing. VentureBeat. 1 July 2020 [1 April 2021]. (原始内容存档于March 10, 2021). 
  5. ^ Mozilla釋出最新長達7,226個小時的Common Voice語音資料集. iThome. July 6, 2020 [2022-12-19]. (原始内容存档于December 3, 2022). 
  6. ^ Mozilla Common Voice Receives $3.4 Million Investment to Democratize and Diversify Voice Tech in East Africa. Mozilla Foundation. 2021-05-25 [2021-06-03]. (原始内容存档于2022-12-19) (英语). 
  7. ^ Onukwue, Alexander. Ghana’s most popular language is now on Mozilla Common Voice. Quartz. 23 September 2022 [3 October 2022]. (原始内容存档于2022-12-02) (美国英语). 
  8. ^ Languages. commonvoice.mozilla.org. [4 October 2022]. (原始内容存档于2022-12-24) (英语).