BigScience 大规模开放科学与多语言开放访问模型BLOOM[1][2] 是一个基于Transformer模型的自回归大型语言模型(LLM),具有1760亿个参数。该模型与其代码基础,以及训练所用的数据,均以自由许可证形式发布。[3] BLOOM于2022年3月至7月间,使用约3660亿(1.6TB)个语料进行训练。[4][5]

BLOOM是BigScience合作项目的主要成果,[6]该项目是一个为期一年的研究工作坊,自2021年5月开始,至2022年5月结束。BigScience由HuggingFace领导,并涉及来自法国及其他国家数百名代表学术界和私营部门的研究人员与工程师。BigScience得到了法国公众超级计算机Jean Zay的大规模公众计算资源的支持,该计算机由GENCI法国国家科学研究中心(IDRIS)管理,并在其上进行训练。

BLOOM的训练语料库名为ROOTS,它结合了来自当时最新版本网络基础OSCAR语料库的数据(占ROOTS的38%),以及从人工挑选和记录的语言数据来源清单中收集的新数据。该语料库涵盖了46种自然语言(语料占比从英语的30%到Chi Tumbuka语的0.00002%不等)以及13种编程语言。[7]

参考资料

编辑
  1. ^ BigScience Large Open-science Open-access Multilingual Language Model. [2022-10-01]. 
  2. ^ Le Scao T, Fan A, Akiki C, Pavlick E, Ilić S, Hesslow D, Castagné R, Luccioni A, Yvon F, Gallé M, Tow J, Rush AM, Biderman S, Webson A, Sasanka Ammanamanchi P, Wang T, Sagot B, Muennighoff N, Villanova del Moral A, Ruwase O, Bawden R, Bekman S, McMillan-Major A, Beltagy I, Nguyen H, Saulnier L, Tan S, Ortiz Suarez P, Sanh V, Laurençon H, Jernite Y, Launay J, Mitchell M, Raffel C, et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. 2022. arXiv:2211.05100  [cs.CL]. 
  3. ^ The BigScience RAIL license. [2024-01-10]. 
  4. ^ Heikkilä, Melissa. BLOOM: Inside the radical new project to democratize AI. MIT Technology Review. 2022-07-12 [2023-12-26]. 
  5. ^ Release of largest trained open-science multilingual language model ever. French National Centre for Scientific Research. 2022-07-12 [2023-12-26]. 
  6. ^ BigScience. [2024-01-10]. 
  7. ^ Laurençon H, Saulnier L, Wang T, Akiki C, Villanova del Moral A, Le Scao T, Von Werra L, Mou C, González Ponferrada C, Nguyen H, Frohberg J, Šaško M, Lhoest Q, McMillan-Major A, Dupont G, Biderman S, Rogers A, Ben allal L, De Toni F, Pistilli G, Nguyen O, Nikpoor S, Masoud M, Colombo P, de la Rosa J, Villegas P, Thrush T, Longpre S, Nagel S, Weber L, Muñoz M, Zhu J, Van Strien D, Alyafeai Z, Almubarak K, Vu MC, Gonzalez-Dios I, Soroa A, Lo K, Dey M, Ortiz Suarez P, Gokaslan A, Bose S, Adelani D, Phan L, Tran H, Yu I, Pai S, Chim J, Lepercq V, Ilic S, Mitchell M, Luccioni S, Jernite Y. The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset. 2022. arXiv:2303.03915  [cs.CL].