模仿学习

模仿学习是社会学习中的一种，个体通过模仿获得新的行为。^[1] 模仿有助于沟通、社交互动以及调节自己的情绪以考虑他人情绪的能力，并且“对于健康的感觉运动发展和社会功能至关重要”。^[1] 人类和动物都具有将自己的行为与他人观察到的行为相匹配的能力。^[1] 模仿学习在人类社会文化发展中发挥着重要作用。^[2] 模仿学习与观察学习不同，因为它需要复制示范所表现出的行为，而观察学习可以在发生在学习者观察到不想要的行为及其后续后果时，并因此学会避免该行为时发生。

动物的模仿学习

在最基本的层面上，AL Saggerson、David N. George 和 RC Honey 的研究显示，鸽子通过观察示范鸽学习一项基本过程，以获取奖励。^[3] 示范鸽接受训练，对一种刺激（例如红光）作出啄食面板的反应，并对另一种刺激（例如绿光）作出在面板上跳跃的反应。在示范鸽熟练掌握任务后，其他学习的鸽子被置于视频监控的观察室。经过第二次观察试验后，这些学习的鸽子被单独放入示范鸽的笼子，并进行相同的测试。学习的鸽子在任务中表现出良好的表现，这表明它们在观察过程中形成了反应-结果的联系。然而，研究人员指出，这些结果的另一种解释可能是，学习的鸽子反而获得了指导其行为的结果-反应关联。需要进一步测试以确定这种解释是否有效。此外，切斯勒也进行了一项类似的研究，比较了看见母猫按下杠杆获取食物与未见过此情况的小猫。^[4] 提供闪烁灯光形式的刺激，之后小猫必须按下杠杆才能获得食物奖励。实验使用闪烁灯光作为刺激，小猫随后必须按下杠杆才能获得食物奖励。该研究测试了三组小猫的反应：一组在尝试任务之前观察母猫的表现，一组观察陌生雌性的表现，以及一组没有观察者，在完成任务时必须通过反复试验（控制组）。研究发现，在观察母猫执行任务之前，小猫比观察陌生雌性反应的更快地获得按下杠杆的反应。未经观察而进行任务的小猫从未获得此反应。这一结果表明小猫通过模仿学习。此外，该研究还推测模仿学习的优先性（相对于试验结束错误）是可能是由于对母猫的社会和生物反应（一种学习偏差）。

是否动物具有真正的模仿能力是一个备受争议的议题。要将一个动作视为模仿学习的例证，动物必须观察并重现模型所展示的特定运动模式。一些研究人员提出的证据表明，非灵长类动物中并不存在真正的模仿现象，而观察性学习所展示的认知复杂性相对较低，例如刺激加强。^[5] ^[6] 相反，黑猩猩更倾向于通过模仿而非真正的模仿来学习。然而，圈养的黑猩猩是一个例外，它们像孩子一样被人工抚养长大。在巴特尔曼等人的研究中，发现人工饲养的黑猩猩的行为类似于幼儿，甚至会模仿那些与实现预期目标无关的行为。^[7] 在其他关于真正模仿的研究中，一些混杂的黑猩猩甚至在初次观察模型一段时间后也会模仿其行为。 ^[8] ^[9]

人类的模仿学习

模仿学习在人类身上已经有着充分的研究记录，通常被用作灵长类动物模仿学习研究中的对照组。 ^[8] ^[9] 霍纳和怀顿的研究比较了（非文化的）黑猩猩和人类儿童的行为，发现儿童过度模仿了不必要的行为。^[10] 在这项研究中，3-4岁的儿童和黑猩猩被呈现一系列动作来打开一个不透明的拼图盒子，里面有奖励。打开盒子需要执行其中两项操作，但其中一项操作是不必要的，尽管受试者不知道这一点。一名示范者完成了打开盒子的所有三个动作，随后黑猩猩和孩子们都尝试了这项任务。孩子们和黑猩猩都模仿了这三种行为，并且在盒子里收到了奖励。研究的下一阶段涉及透明盒子而不是不透明盒子。由于这个盒子是透明的，可以清楚地看到，这三个动作中的任何一个都不是必要的以获得奖励。黑猩猩没有执行不必要的动作，只执行了实现预期目标所必需的两个动作。而幼儿模仿了所有这三个动作，尽管他们可以选择性地忽略不相关的动作。对此的一个解释是人类遵循惯例。克莱格和勒加雷的研究通过向幼儿展示一种制作项链的方法来测试这一点。^[11] 在示范中，模特添加了一个步骤，这对于实现完成项链的最终目标并不是必需的。在一次演示中，模特使用语言提示告诉孩子们，制作项链是有帮助的，例如，“我要制作一条项链。让我们看看我在做什么。我要制作一条项链。”^[12] 在另一个演示中，模特使用语言提示暗示他们按照惯例制作项链，例如，“我总是这样做。每个人总是这样做。让我们看看我在做什么。每个人总是这样做。”^[12] 在常规条件下，孩子们复制模特的行为更为忠实，包括不必要的步骤。而在仪器条件下，他们没有复制不必要的步骤。研究表明，孩子们会辨别何时模仿，并将惯例视为模仿行为以适应惯例的一个显著原因。从他人的行为中获取正确行为的线索，而不是使用独立的判断，被称为从众偏见。最近的研究表明，人类在选择模仿谁的行为时也会受到其他偏见的影响。人类会模仿他们认为在自己也希望在该领域取得成功的成功人士（成功偏见），以及其他人优先向其学习的受人尊敬、有声望的个人（声望偏见）。^[13] 在Chudek等人的研究中，注意力提示被用来向孩子们表明某个特定的模特是有声望的。^[14] 在一项由两名模特以不同方式玩玩具的实验中，两名观察者观看这位享有盛誉的模特10秒钟，从而表明了其声望。研究发现，孩子们会注意到象征声望的暗示，并优先模仿有声望的模特。研究表明，这种偏见有助于人类直接和间接地获取个人拥有值得学习的知识的线索。这些线索可能导致人类模仿有害行为。当试图自杀的人模仿他们在媒体上听说或看到的自杀企图的方法时，就会发生模仿自杀，名人自杀后自杀企图显著增加（参见维特效应）。由于大批人模仿一个或一组模特的行为，自杀可以像流行病一样通过社交网络传播（参见蓝鲸挑战）。

机器人技术中的模仿学习

模仿学习可以在机器人技术中作为传统强化学习的替代方案。统的强化学习算法通常从随机动作开始，并试图自主发现正确的动作序列以实现预定目标。而，这种方法在机器人技术中可能遇到困难，因为奖励信号往往是极其稀疏的（例如，机器人只能在成功或失败这两种状态之间选择，而没有中间状态）。如果成功需要机器人执行一系列复杂的动作，那么强化学习算法可能会在训练过程中难以取得进展，困于低奖励区间。^[15] 模仿学习可以被用来创建一组成功的示例，供强化学习算法学习。这种方法涉及让人类研究人员手动驾驶机器人，并记录所采取的动作。这些成功示例能够比纯随机行为更好地引导强化学习算法朝着正确的方向发展。^[16]

参考

^ ^1.0 ^1.1 ^1.2 Ganos C, Ogrzal T, Schnitzler A, Münchau A. The pathophysiology of echopraxia/echolalia: relevance to Gilles de la Tourette syndrome. Mov. Disord. September 2012, 27 (10): 1222–9. PMID 22807284. S2CID 22422642. doi:10.1002/mds.25103.
^ Heyes C. Grist and mills: on the cultural origins of cultural learning. Philos Trans R Soc Lond B Biol Sci. Aug 5, 2012, 367 (1599): 2181–91. PMC 3385685  . PMID 22734061. doi:10.1098/rstb.2012.0120.
^ Saggerson, George; Honey. Imitative Learning of Stimulus-Response and Response-Outcome Associations in Pigeons. Journal of Experimental Psychology: Animal Behavior Processes. 2005, 31 (3): 289–300. PMID 16045384. doi:10.1037/0097-7403.31.3.289.
^ Chesler, P. Maternal Influence in Learning by Observation in Kittens. Science. 1969, 166 (3907): 901–903. Bibcode:1969Sci...166..901C. ISSN 0036-8075. PMID 5345208. S2CID 683297. doi:10.1126/science.166.3907.901 （英语）.
^ Byrne, Richard W.; Russon, Anne E. Learning by imitation: A hierarchical approach. Behavioral and Brain Sciences. 1998, 21 (5): 667–684. ISSN 0140-525X. PMID 10097023. S2CID 988905. doi:10.1017/S0140525X98001745 （英语）.
^ Zentall, Thomas R. Imitation: definitions, evidence, and mechanisms. Animal Cognition. 2006, 9 (4): 335–353. ISSN 1435-9448. PMID 17024510. S2CID 16183221. doi:10.1007/s10071-006-0039-2 （英语）.
^ Buttelmann, David; Carpenter, Malinda; Call, Josep; Tomasello, Michael. Enculturated chimpanzees imitate rationally. Developmental Science. 2007, 10 (4): F31–F38. ISSN 1467-7687. PMID 17552931. doi:10.1111/j.1467-7687.2007.00630.x （英语）.
^ ^8.0 ^8.1 Bjorklund, David F.; Yunger, Jennifer L.; Bering, Jesse M.; Ragan, Patricia. The generalization of deferred imitation in enculturated chimpanzees (Pan troglodytes). Animal Cognition. 2002, 5 (1): 49–58. ISSN 1435-9448. PMID 11957402. S2CID 11537264. doi:10.1007/s10071-001-0124-5 （英语）.
^ ^9.0 ^9.1 Tomasello, Michael; Savage-Rumbaugh, Sue; Kruger, Ann Cale. Imitative Learning of Actions on Objects by Children, Chimpanzees, and Enculturated Chimpanzees. Child Development. 1993, 64 (6): 1688–1705. ISSN 0009-3920. JSTOR 1131463. PMID 8112113. doi:10.2307/1131463.
^ Horner, Victoria; Whiten, Andrew. Causal knowledge and imitation/emulation switching in chimpanzees (Pan troglodytes) and children (Homo sapiens). Animal Cognition. 2005, 8 (3): 164–181. ISSN 1435-9448. PMID 15549502. S2CID 1949770. doi:10.1007/s10071-004-0239-6 （英语）.
^ Clegg, Jennifer M.; Legare, Cristine H. Instrumental and Conventional Interpretations of Behavior Are Associated With Distinct Outcomes in Early Childhood. Child Development. 2015-12-19, 87 (2): 527–542. ISSN 0009-3920. PMID 26682522. doi:10.1111/cdev.12472.
^ ^12.0 ^12.1 Clegg, Jennifer M.; Legare, Cristine H. Instrumental and Conventional Interpretations of Behavior Are Associated With Distinct Outcomes in Early Childhood. Child Development. 2015-12-19, 87 (2): 527–42. ISSN 0009-3920. PMID 26682522. doi:10.1111/cdev.12472.
^ Henrich, J.; Broesch, J. On the nature of cultural transmission networks: evidence from Fijian villages for adaptive learning biases. Philosophical Transactions of the Royal Society B: Biological Sciences. 2011, 366 (1567): 1139–1148. ISSN 0962-8436. PMC 3049092  . PMID 21357236. doi:10.1098/rstb.2010.0323.
^ Chudek, Maciej; Heller, Sarah; Birch, Susan; Henrich, Joseph. Prestige-biased cultural learning: bystander's differential attention to potential models influences children's learning. Evolution and Human Behavior. 2012, 33 (1): 46–56. doi:10.1016/j.evolhumbehav.2011.05.005 （英语）.
^ Xuezhi, Niu. Optimal Gait Control of Soft Quadruped Robot by Model-based Reinforcement Learning. Stockholm, Sweden: Department of Machine Design, KTH Royal Institute of Technology. 2023.
^ Tianhao Zhang; Zoe McCarthy. Deep Imitation Learning for Complex Manipulation Tasks from Virtual Reality Teleoperation. 2018-03-06. arXiv:1710.04615v2  [cs.LG].

[Ganos-1] 1.0 ^1.1 ^1.2 Ganos C, Ogrzal T, Schnitzler A, Münchau A. The pathophysiology of echopraxia/echolalia: relevance to Gilles de la Tourette syndrome. Mov. Disord. September 2012, 27 (10): 1222–9. PMID 22807284. S2CID 22422642. doi:10.1002/mds.25103.

[Heyes-2] Heyes C. Grist and mills: on the cultural origins of cultural learning. Philos Trans R Soc Lond B Biol Sci. Aug 5, 2012, 367 (1599): 2181–91. PMC 3385685  . PMID 22734061. doi:10.1098/rstb.2012.0120.

[3] Saggerson, George; Honey. Imitative Learning of Stimulus-Response and Response-Outcome Associations in Pigeons. Journal of Experimental Psychology: Animal Behavior Processes. 2005, 31 (3): 289–300. PMID 16045384. doi:10.1037/0097-7403.31.3.289.

[4] Chesler, P. Maternal Influence in Learning by Observation in Kittens. Science. 1969, 166 (3907): 901–903. Bibcode:1969Sci...166..901C. ISSN 0036-8075. PMID 5345208. S2CID 683297. doi:10.1126/science.166.3907.901 （英语）.

[5] Byrne, Richard W.; Russon, Anne E. Learning by imitation: A hierarchical approach. Behavioral and Brain Sciences. 1998, 21 (5): 667–684. ISSN 0140-525X. PMID 10097023. S2CID 988905. doi:10.1017/S0140525X98001745 （英语）.

[6] Zentall, Thomas R. Imitation: definitions, evidence, and mechanisms. Animal Cognition. 2006, 9 (4): 335–353. ISSN 1435-9448. PMID 17024510. S2CID 16183221. doi:10.1007/s10071-006-0039-2 （英语）.

[7] Buttelmann, David; Carpenter, Malinda; Call, Josep; Tomasello, Michael. Enculturated chimpanzees imitate rationally. Developmental Science. 2007, 10 (4): F31–F38. ISSN 1467-7687. PMID 17552931. doi:10.1111/j.1467-7687.2007.00630.x （英语）.

[:0-8] 8.0 ^8.1 Bjorklund, David F.; Yunger, Jennifer L.; Bering, Jesse M.; Ragan, Patricia. The generalization of deferred imitation in enculturated chimpanzees (Pan troglodytes). Animal Cognition. 2002, 5 (1): 49–58. ISSN 1435-9448. PMID 11957402. S2CID 11537264. doi:10.1007/s10071-001-0124-5 （英语）.

[:1-9] 9.0 ^9.1 Tomasello, Michael; Savage-Rumbaugh, Sue; Kruger, Ann Cale. Imitative Learning of Actions on Objects by Children, Chimpanzees, and Enculturated Chimpanzees. Child Development. 1993, 64 (6): 1688–1705. ISSN 0009-3920. JSTOR 1131463. PMID 8112113. doi:10.2307/1131463.

[10] Horner, Victoria; Whiten, Andrew. Causal knowledge and imitation/emulation switching in chimpanzees (Pan troglodytes) and children (Homo sapiens). Animal Cognition. 2005, 8 (3): 164–181. ISSN 1435-9448. PMID 15549502. S2CID 1949770. doi:10.1007/s10071-004-0239-6 （英语）.

[11] Clegg, Jennifer M.; Legare, Cristine H. Instrumental and Conventional Interpretations of Behavior Are Associated With Distinct Outcomes in Early Childhood. Child Development. 2015-12-19, 87 (2): 527–542. ISSN 0009-3920. PMID 26682522. doi:10.1111/cdev.12472.

[:2-12] 12.0 ^12.1 Clegg, Jennifer M.; Legare, Cristine H. Instrumental and Conventional Interpretations of Behavior Are Associated With Distinct Outcomes in Early Childhood. Child Development. 2015-12-19, 87 (2): 527–42. ISSN 0009-3920. PMID 26682522. doi:10.1111/cdev.12472.

[13] Henrich, J.; Broesch, J. On the nature of cultural transmission networks: evidence from Fijian villages for adaptive learning biases. Philosophical Transactions of the Royal Society B: Biological Sciences. 2011, 366 (1567): 1139–1148. ISSN 0962-8436. PMC 3049092  . PMID 21357236. doi:10.1098/rstb.2010.0323.

[14] Chudek, Maciej; Heller, Sarah; Birch, Susan; Henrich, Joseph. Prestige-biased cultural learning: bystander's differential attention to potential models influences children's learning. Evolution and Human Behavior. 2012, 33 (1): 46–56. doi:10.1016/j.evolhumbehav.2011.05.005 （英语）.

[15] Xuezhi, Niu. Optimal Gait Control of Soft Quadruped Robot by Model-based Reinforcement Learning. Stockholm, Sweden: Department of Machine Design, KTH Royal Institute of Technology. 2023.

[16] Tianhao Zhang; Zoe McCarthy. Deep Imitation Learning for Complex Manipulation Tasks from Virtual Reality Teleoperation. 2018-03-06. arXiv:1710.04615v2  [cs.LG].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]