生成式人工智能

能够根据提示生成内容的人工智慧
(重定向自Generative AI

生成式人工智能(或称生成式AI产生式AI;英语:Generative artificial intelligenceGenerative AIGenAIGAI)是一种人工智能系统,能够产生文字、图像或其他媒体以回应提示工程[1][2],比如ChatGPT。产生模型学习输入数据的模式和结构,然后产生与训练数据相似但具有一定程度新颖性的新内容,而不仅仅是分类或预测数据[3]。用于处理生成式人工智能的最突出框架包括生成对抗网络基于转换器的生成式预训练模型[4][5]

Impressionistic image of figures in a futuristic opera scene
太空歌剧院英语Théâtre D'opéra Spatial》(Théâtre D'opéra Spatial), 使用人工智能生成的影像

历史

编辑

早期历史

编辑

自创立以来,该领域的研究人员就人类心智的本质以及创造具有类似人类智能的人工生物的后果提出了哲学和伦理上的争论;自古以来,神话、小说哲学都曾探讨过这些问题。[6] 自动化艺术的概念至少可以追溯到古希腊文明自动机,在古希腊文明中,代达洛斯 (Daedalus) 和亚历山大的海伦 (Hero of Alexandria) 等发明家被描述为设计出能够书写文字、发出声音和演奏音乐的机器。[7][8]创造性自动化的传统在历史上蓬勃发展,以19世纪初瑞士工程师亨利·梅拉代英语Henri Maillardet(Henri Maillardet) 设计的梅拉代自动机英语Maillardet Automaton(Maillardet Automaton)就是一例。[9]自俄罗斯数学家安德烈·马尔可夫 (Andrey Markov) 在20世纪初提出马尔可夫链以来,马尔可夫链长期以来一直被用来建立自然语言模型。[10][11]马尔可夫在1906年发表了第一篇相关论文,并使用马尔可夫链分析了小说《叶甫盖尼·奥涅金》 (Eugeny Onegin) 中元音和辅音的模式。马尔可夫链一旦在文字语料库上学习完成,就可以用来当作概率文字产生器。[12][13]

人工智能学术

编辑

人工智能学术学科是在1956年于达特茅斯学院 (Dartmouth College) 举办的达特矛斯会议上成立的,并在此后的几十年间经历了数次进步与乐观的浪潮。[14]人工智能研究始于1950年代,作品包括 Computing Machinery and Intelligence (1950) 和1956年Dartmouth Summer Research Project on AI。自1950年代起,艺术家和研究人员开始使用人工智能创作艺术作品。到了1970年代早期,艺术家Harold Cohen开始创作并展出由AARON所创作的生成式人工智能作品,AARON是Cohen为了生成绘画而创作的计算机程序。[15]

生成神经网络(2014-2019)

编辑
 
上图:影像分类器,一个使用判别目标训练的神经网络的示例。下图:文本到图像生成模型,一个使用生成目标训练的网络的示例。

自从机器学习领域诞生以来,它既使用了判别模型也使用了生成模型来建模和预测资料。自2000年代后期以来,深度学习的出现促进了影像分类语音识别自然语言处理等任务的进展与研究。在这个时代,神经网络通常被作为判别模型进行训练,由于生成建模的难度,这导致了它们在生成模型建模方面的应用受限。[16]

2014年,变分自编码器生成对抗网络等进步产生了第一个实用的深度神经网络,该网络能够针对图像等复杂数据学习生成模型(而非判别模型)。这些深度生成模型是第一个不仅输出影像的类别标签而且输出整个影像的模型。

2017年,Transformer网络使生成式模型相较于较旧的长短期记忆 (Long-Short Term Memory) 模型有了进步,[17]从而在2018年推出了第一个基于转换器的生成式预训练模型 (GPT),即GPT-1。随后在2019年,GPT-2展示了作为基础模型在无监督的情况下泛化到许多不同任务的能力。[18]

在此期间引入的新生成模型允许使用无监督学习或半监督学习来训练大型神经网络,而不是典型的判别模型监督学习无监督学习消除了人类手动标签资料的需要,允许训练更大的网络。[19]

生成式人工智能热潮 (2020-)

编辑
 
AI产生的影像已变得更先进。

2020年3月,由一位匿名的麻省理工学院研究员所创造的15.ai,是一个免费的网络应用程序,可以使用最少的训练资料,产生令人信服的角色语音。 [20]该平台被认为是第一个在网络迷因和内容创作中普及AI语音克隆(音频深度伪造)的主流服务,影响了语音AI技术的后续发展。[21][22]

2022年末,ChatGPT的公开发布彻底改变了生成式人工智能在通用文本任务中的可及性和应用。[23]该系统能够进行自然对话产生创意内容、协助编码以及执行各种分析任务,吸引了全球的关注,并引发了有关人工智能对工作、教育和创造力的潜在影响的广泛讨论。[24]

2023年3月,GPT-4的发布代表着生成式人工智能能力的又一次跃进。来自微软研究院的一个团队有争议地认为,它 “可以合理地被视为通用人工智能(AGI)系统的早期版本(但仍不完整)”。[25]然而,这项评估受到其他学者的质疑,他们认为截至2023年,生成式人工智能“仍远未达到“一般人类智能”的基准”。[26]2023年晚些时候,Meta发表了ImageBind,这是一个结合了多种模式的人工智能模型,包括文字、影像、视频、热资料、3D资料、音频和动作,为更身历其境的生成式人工智能应用铺路。[27]

2023年12月,谷歌 (Google) 推出Gemini (语言模型),这是一种多模式AI模型,共有四种版本: Ultra、Pro、Flash 和 Nano。[28]该公司将Gemini Pro集成到其Bard聊天机器人中,并宣布计划推出由更大的 Gemini Ultra 机型驱动的“Bard Advanced”。[29]2024年2月,谷歌将 Bard和Duet AI统一为Gemini品牌,在Android上推出移动应用程序,并将服务集成至iOS上的Google应用程序。[30]

2024年3月,Anthropic发布了Claude 3系列大型语言模型,其中包括Claude 3 Haiku、Sonnet和Opus。[31]这些模型在各种基准测试中都表现出了显著的能力提升,其中Claude 3 Opus的表现明显优于OpenAIGoogle的领先模型。[32] 2024年6月,Anthropic发布了Claude 3.5 Sonnet,与更大的Claude 3 Opus相比,其性能有所提升,特别是在编码、多步骤工作流程和图像分析等领域。[33]

 
AI (粉红色) 和生成式AI (绿色) 的私人投资。

根据人工智能和分析软件公司SAS和科尔曼·帕克斯研究公司 (Coleman Parkes Research) 的调查,中国已经成为生成式人工智能应用的全球领导者,83%的中国受访者使用该技术,超过54%的全球平均水平和65%的美国比率。中国在该领域的智能财产发展进一步证明了这一领导地位,一份联合国报告显示,从2014年到2023年,中国实体申请了超过38,000项生成式人工智能专利,在专利申请量上大幅超越美国。[34]

模态

编辑

生成式人工智能系统是通过将无监督或自监督机器学习应用于数据集来构建的。生成式人工智能系统的功能取决于所使用的数据集的模式或类型。生成式人工智能可以是单模态的,也可以是多模态的;单模态系统仅接受一种类型的输入,而多模态系统可以接受多种类型的输入。[35] 例如,OpenAI 的 GPT-4 的一种版本接受文本和图像输入。[36]

文本

编辑

基于单词或单词标记训练的生成式 AI 系统包括 GPT-3、LaMDA、LLaMA、BLOOM、GPT-4 等(请参阅大型语言模型列表)。 它们能够进行自然语言处理、机器翻译和自然语言生成,并且可以用作其他任务的基础模型

图像

编辑
 
Stable Diffusion根据文本提示“a photograph of an astronaut riding a horse”生成的图像

制作高质量的视觉艺术是生成式人工智能的一个突出应用。[37]

音乐

编辑

歌词的音频深度伪造已经产生,例如歌曲Savages就使用AI来模仿饶舌歌手杰斯 (Jay-Z) 的歌声。音乐创作人的乐器和歌词拥有著作权,但他们的声音尚未受到再生人工智能的保护,这引起了艺术家是否应该从音频deepfakes中获取版税的争论。[38]

许多AI音乐产生器已经被创造出来,可以使用文字词组、音乐类型选项以及重复小节和旋律库来产生。[39]

视频

编辑
Sora生成的视频,提示词Borneo wildlife on the Kinabatangan River

以注解视频为基础训练的生成式人工智能可以产生时间上连贯、细致且逼真的视频片段。示例包括OpenAISora、Runway 的Gen-1和Gen-2[40]以及Meta Platforms的Make-A-Video。[41]

关注

编辑

生成式人工智能的发展已引起政府、企业和个人的关注,导致抗议、法律行动、要求暂停人工智能实验,以及多国政府的行动。在2023年7月联合国安全理事会的演示稿会中,秘书长安东尼奥·古特雷斯(António Guterres) 表示“生成式人工智能在规模上具有巨大的善恶潜力”,人工智能可能会“为全球发展注入动力”,并在2030年前为全球经济贡献$10到$15兆美元,但其恶意使用“可能会造成可怕程度的死亡与破坏、广泛的创伤,以及无法想像规模的深度心理伤害”。[42]

参见

编辑

参考资料

编辑
  1. ^ Griffith, Erin; Metz, Cade. Anthropic Said to Be Closing In on $300 Million in New A.I. Funding. The New York Times. 2023-01-27 [2023-03-14]. (原始内容存档于2023-03-14). 
  2. ^ Lanxon, Nate; Bass, Dina; Davalos, Jackie. A Cheat Sheet to AI Buzzwords and Their Meanings. Bloomberg News. March 10, 2023 [March 14, 2023]. (原始内容存档于2023-03-26). 
  3. ^ Pasick, Adam. Artificial Intelligence Glossary: Neural Networks and Other Terms Explained. The New York Times. 2023-03-27 [2023-04-22]. ISSN 0362-4331. (原始内容存档于2023-09-01) (美国英语). 
  4. ^ 存档副本. [2023-05-06]. (原始内容存档于2023-06-05). 
  5. ^ 存档副本. [2023-05-06]. (原始内容存档于2023-04-28). 
  6. ^ Newquist, H. P. The Brain Makers: Genius, Ego, And Greed In The Quest For Machines That Think. New York: Macmillan/SAMS. 1994: 45–53. ISBN 978-0-672-30412-5 (美国英语). 
  7. ^ Sharkey, Noel, A programmable robot from 60 AD 2611, New Scientist, July 4, 2007 [October 22, 2019], (原始内容存档于January 13, 2018) 
  8. ^ Brett, Gerard, The Automata in the Byzantine "Throne of Solomon", Speculum, July 1954, 29 (3): 477–487, ISSN 0038-7134, JSTOR 2846790, S2CID 163031682, doi:10.2307/2846790. 
  9. ^ kelinich. Maillardet's Automaton. The Franklin Institute. 2014-03-08 [2023-08-24]. (原始内容存档于August 24, 2023) (英语). 
  10. ^ Grinstead, Charles Miller; Snell, James Laurie. Introduction to Probability. American Mathematical Society. 1997: 464–466. ISBN 978-0-8218-0749-1 (美国英语). 
  11. ^ Bremaud, Pierre. Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues. Springer Science & Business Media. 9 March 2013: ix. ISBN 978-1-4757-3124-8. (原始内容存档于23 March 2017). 
  12. ^ Hayes, Brian. First Links in the Markov Chain. American Scientist. 2013, 101 (2): 92 [September 24, 2023]. ISSN 0003-0996. doi:10.1511/2013.101.92. (原始内容存档于May 7, 2024). 
  13. ^ Fine, Shai; Singer, Yoram; Tishby, Naftali. The Hierarchical Hidden Markov Model: Analysis and Applications. Machine Learning. 1998-07-01, 32 (1): 41–62. ISSN 1573-0565. S2CID 3465810. doi:10.1023/A:1007469218079  (英语). 
  14. ^ Crevier, Daniel. AI: The Tumultuous Search for Artificial Intelligence.. New York, New York: BasicBooks. 1993: 109. ISBN 0-465-02997-3 (美国英语). 
  15. ^ Bergen, Nathan; Huang, Angela. A Brief History of Generative AI (PDF). Dichotomies: Generative AI: Navigating Towards a Better Future. 2023, (2): 4 [August 8, 2023]. (原始内容存档 (PDF)于August 10, 2023). 
  16. ^ Jebara, Tony. Machine learning: discriminative and generative 755. Springer Science & Business Media. 2012. 
  17. ^ Cao, Yihan; Li, Siyu; Liu, Yixin; Yan, Zhiling; Dai, Yutong; Yu, Philip S.; Sun, Lichao. A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT. 7 March 2023. arXiv:2303.04226  [cs.AI]. 
  18. ^ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya. Language models are unsupervised multitask learners (PDF). OpenAI Blog. 2019. 
  19. ^ Radford, Alec. Improving language understanding with unsupervised learning. OpenAI. June 11, 2018 [October 6, 2024]. 
  20. ^ Chandraseta, Rionaldi. Generate Your Favourite Characters' Voice Lines using Machine Learning . Towards Data Science. January 21, 2021 [December 18, 2024]. 
  21. ^ Temitope, Yusuf. 15.ai Creator reveals journey from MIT Project to internet phenomenon. The Guardian. December 10, 2024 [December 25, 2024]. (原始内容存档于December 28, 2024). 
  22. ^ Anirudh VK. Deepfakes Are Elevating Meme Culture, But At What Cost?. Analytics India Magazine. March 18, 2023 [December 18, 2024]. (原始内容存档于December 26, 2024). While AI voice memes have been around in some form since '15.ai' launched in 2020, [...] 
  23. ^ Lock, Samantha. What is AI chatbot phenomenon ChatGPT and could it replace humans?. The Guardian. 2022-12-05 [2023-03-15] (英国英语). 
  24. ^ Huang, Haomiao. How ChatGPT turned generative AI into an "anything tool". Ars Technica. August 23, 2023 [September 21, 2024]. 
  25. ^ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi. Sparks of Artificial General Intelligence: Early experiments with GPT-4. March 22, 2023. arXiv:2303.12712  [cs.CL]. 
  26. ^ Schlagwein, Daniel; Willcocks, Leslie. ChatGPT et al: The Ethics of Using (Generative) Artificial Intelligence in Research and Science. Journal of Information Technology. September 13, 2023, 38 (2): 232–238. S2CID 261753752. doi:10.1177/02683962231200411 . 
  27. ^ Meta open-sources multisensory AI model that combines six types of data. May 9, 2023 [March 14, 2024]. 
  28. ^ Kruppa, Miles. Google Announces AI System Gemini After Turmoil at Rival OpenAI . The Wall Street Journal. December 6, 2023 [December 6, 2023]. ISSN 0099-9660. (原始内容存档于December 6, 2023). 
  29. ^ Edwards, Benj. Google launches Gemini—a powerful AI model it says can surpass GPT-4. Ars Technica. December 6, 2023 [December 6, 2023]. 
  30. ^ Metz, Cade. Google Releases Gemini, an A.I.-Driven Chatbot and Voice Assistant. The New York Times. February 8, 2024 [February 8, 2024]. 
  31. ^ Introducing the next generation of Claude. [4 March 2024]. 
  32. ^ Nuñez, Michael. Anthropic unveils Claude 3, surpassing GPT-4 and Gemini Ultra in benchmark tests. Venture Beat. 2024-03-04 [2024-04-09]. 
  33. ^ Pierce, David. Anthropic has a fast new AI model — and a clever new way to interact with chatbots. The Verge. 2024-06-20 [2024-06-22] (英语). 
  34. ^ Baptista, Eduardo. China leads the world in adoption of generative AI, survey shows. Reuters. 9 July 2024 [14 July 2024]. 
  35. ^ A History of Generative AI: From GAN to GPT-4. 21 March 2023 [2023-09-19]. (原始内容存档于2023-06-10). 
  36. ^ Explainer: What is Generative AI, the technology behind OpenAI's ChatGPT?. Reuters. March 17, 2023 [March 17, 2023]. (原始内容存档于2023-03-30). 
  37. ^ Epstein, Ziv; Hertzmann, Aaron; Akten, Memo; Farid, Hany; Fjeld, Jessica; Frank, Morgan R.; Groh, Matthew; Herman, Laura; Leach, Neil; Mahari, Robert; Pentland, Alex “Sandy”; Russakovsky, Olga; Schroeder, Hope; Smith, Amy. Art and the science of generative AI. Science. 2023, 380 (6650): 1110–1111. arXiv:2306.04141 . doi:10.1126/science.adh4451. 
  38. ^ Jay-Z's Delaware producer sparks debate over AI rights. [February 27, 2024]. (原始内容存档于February 27, 2024). 
  39. ^ 10 "Best" AI Music Generators (April 2024) - Unite.AI. October 19, 2022 [February 27, 2024]. (原始内容存档于January 29, 2024). 
  40. ^ Metz, Cade. Instant Videos Could Represent the Next Leap in A.I. Technology. The New York Times. April 4, 2023 [April 5, 2023]. (原始内容存档于April 5, 2023) (英语). 
  41. ^ Wong, Queenie. Facebook Parent Meta's AI Tool Can Create Artsy Videos From Text. cnet.com. September 29, 2022 [Apr 4, 2023]. (原始内容存档于April 5, 2023). 
  42. ^ Secretary-General's remarks to the Security Council on Artificial Intelligence. un.org. 18 July 2023 [27 July 2023]. (原始内容存档于July 28, 2023).