GPT-3

生成型预训练变换模型 3
Generative Pre-trained Transformer 3（GPT-3）
原作者	OpenAI
首次发布	2020年6月11日，4年前 (beta)
当前版本	2023年2月13日，17个月前
源代码库	https://github.com/openai/gpt-3
取代	GPT-2
由…取代	GPT-4
类型	大型语言模型; 基于转换器的生成式预训练模型; 基础模型;
许可协议	专有
网站	openai.com/blog/openai-api

生成型预训练变换模型 3 （英语：Generative Pre-trained Transformer 3，简称 GPT-3）是一个自回归语言模型，目的是为了使用深度学习生成人类可以理解的自然语言^[1]。GPT-3是由在旧金山的人工智能公司OpenAI训练与开发，模型设计基于谷歌开发的 Transformer 语言模型。GPT-3的神经网络包含1750亿个参数，需要700GB来存储，为有史以来参数最多的神经网络模型^[2]。该模型在许多任务上展示了强大的零样本和少样本的能力。^[3]

OpenAI于2020年5月发表GPT-3的论文，在次月为少量公司与开发人团发布应用程序接口的测试版。微软在2020年9月22日宣布获取了GPT-3的独家授权^[4]。

GPT-3被认为可写出人类无法与电脑区别的文章与字符串，GPT-3原始论文的作者们警告了GPT-3有可能对于社会的负面影响，比如利用制造假新闻的可能性。英国《卫报》即使用GPT-3生成了一个关于人工智能对人类无威胁的评论专栏^[5]。李开复称卷积神经网络与GPT-3为人工智能重要的改善，两者皆是模型加海量数据的成果^[6]。

背景

据《经济学人》报道，改进的算法、强大的计算机和数字化数据的增加推动了机器学习的革命，2010 年代的新技术导致“任务的快速改进”，包括操纵语言。^[7]

训练和能力

在2020年5月28日，由OpenAI团队中31名工程师和研究人员撰写的arXiv预印本介绍了第三代“最先进的语言模型”——GPT-3的开发情况。^[8]该团队相对于GPT-2，^[9] 将GPT-3的容量增加了两个数量级以上，使其成为迄今为止最大的非稀疏语言模型。^[10]^:14^[11]

斯坦福大学的研究发现，GPT3已经可以解决70%的心智理论任务，相当于7岁儿童；至于GPT3.5(ChatGPT的同源模型)，更是解决了93%的任务，心智相当于9岁儿童。但这并不意味着，ChatGPT就真正具备了心智理论。可能它即使不被设计到AI系统中，也可以作为“副产品”通过训练得到。因此，相比探究GPT-3.5是不是真的有了心智还是像有心智，更需要反思的是这些测试本身。^[12] ^[13]

迭代版本

GPT-3.5

2022年3月1日，OpenAI在其API中提供了新版本的GPT-3和Codex，名称为“text-davinci-003”和“code-davinci-002”，具有编辑和插入的功能。^[14]

GPT-3.5 Turbo

参见

参考资料

^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Language Models are Few-Shot Learners. 2020-07-22. arXiv:2005.14165  .
^ Ray, Tiernan. OpenAI’s gigantic GPT-3 hints at the limits of language models for AI. ZDNet. 2020-06-01 [2020-07-31]. （原始内容存档于2020-06-01）.
^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF): 12. 2018-06-11 [2020-07-31]. （原始内容存档 (PDF)于2021-01-26）.
^ Hao, Karen. OpenAI is giving Microsoft exclusive access to its GPT-3 language model. MIT Technology Review. 2020-09-23 [2020-09-25]. （原始内容存档于2021-02-05）（英语）. The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases.
^ GPT-3. A robot wrote this entire article. Are you scared yet, human?. The Guardian. 2020-09-08 [2020-09-15]. ISSN 0261-3077. （原始内容存档于2021-02-04）（英国英语）.
^ Lee, Kai-fu. 李开复对话MIT彭特兰：AI不是单打独斗，应避免AI冷战. 2020-10-09 [2020-10-17].
^ An understanding of AI's limitations is starting to sink in. The Economist. 2020-06-11 [2020-07-31]. ISSN 0013-0613. （原始内容存档于2020-07-31）.
^ Sagar, Ram. OpenAI Releases GPT-3, The Largest Model So Far. Analytics India Magazine. 2020-06-03 [2020-07-31]. （原始内容存档于2020-08-04）.
^ Language Models are Unsupervised Multitask Learners (PDF). openai.com. [2019-12-04]. （原始内容存档 (PDF)于2019-12-12）. GPT-2, is a 1.5B parameter Transformer
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. , 编. Language Models are Few-Shot Learners (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.). Dec 2020, 33: 1877–1901 [2023-02-16]. （原始内容存档 (PDF)于2023-05-25）.
^ Shead, Sam. Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab. CNBC. 2020-07-23 [2020-07-31]. （原始内容存档于2020-07-30）. Four preprints were released between May 28 and July 22, 2020.
^ Theory of Mind May Have Spontaneously Emerged in Large Language Models, Michal Kosinski. [2023-02-16]. （原始内容存档于2023-03-06）.
^ ChatGPT背后模型被证实具有人类心智，学术圈轰动. [2023-02-16]. （原始内容存档于2023-03-06）.
^ New GPT-3 Capabilities: Edit & Insert. OpenAI. 2022-03-15 [2023-01-13]. （原始内容存档于2023-01-13）（英语）.

外部链接

官方网站
Playground for GPT3.5 and Codex （页面存档备份，存于互联网档案馆）

[arXiv_Brown_20200722-1] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Language Models are Few-Shot Learners. 2020-07-22. arXiv:2005.14165  .

[ZDNet_Tiernan_20200601-2] Ray, Tiernan. OpenAI’s gigantic GPT-3 hints at the limits of language models for AI. ZDNet. 2020-06-01 [2020-07-31]. （原始内容存档于2020-06-01）.

[OpenAI_Radford_20200611-3] Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF): 12. 2018-06-11 [2020-07-31]. （原始内容存档 (PDF)于2021-01-26）.

[4] Hao, Karen. OpenAI is giving Microsoft exclusive access to its GPT-3 language model. MIT Technology Review. 2020-09-23 [2020-09-25]. （原始内容存档于2021-02-05）（英语）. The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases.

[5] GPT-3. A robot wrote this entire article. Are you scared yet, human?. The Guardian. 2020-09-08 [2020-09-15]. ISSN 0261-3077. （原始内容存档于2021-02-04）（英国英语）.

[6] Lee, Kai-fu. 李开复对话MIT彭特兰：AI不是单打独斗，应避免AI冷战. 2020-10-09 [2020-10-17].

[theeconomist_20200611-7] An understanding of AI's limitations is starting to sink in. The Economist. 2020-06-11 [2020-07-31]. ISSN 0013-0613. （原始内容存档于2020-07-31）.

[analyticsindiamag_Sagar_20200603-8] Sagar, Ram. OpenAI Releases GPT-3, The Largest Model So Far. Analytics India Magazine. 2020-06-03 [2020-07-31]. （原始内容存档于2020-08-04）.

[gpt2-with-quote-9] Language Models are Unsupervised Multitask Learners (PDF). openai.com. [2019-12-04]. （原始内容存档 (PDF)于2019-12-12）. GPT-2, is a 1.5B parameter Transformer

[neurips_Brown_202012-10] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. , 编. Language Models are Few-Shot Learners (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.). Dec 2020, 33: 1877–1901 [2023-02-16]. （原始内容存档 (PDF)于2023-05-25）.

[CNBC_Shead_20200723-11] Shead, Sam. Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab. CNBC. 2020-07-23 [2020-07-31]. （原始内容存档于2020-07-30）. Four preprints were released between May 28 and July 22, 2020.

[Theory_of_Mind-12] Theory of Mind May Have Spontaneously Emerged in Large Language Models, Michal Kosinski. [2023-02-16]. （原始内容存档于2023-03-06）.

[3-13] ChatGPT背后模型被证实具有人类心智，学术圈轰动. [2023-02-16]. （原始内容存档于2023-03-06）.

[14] New GPT-3 Capabilities: Edit & Insert. OpenAI. 2022-03-15 [2023-01-13]. （原始内容存档于2023-01-13）（英语）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]