摘要研究人员发现了两组不同的神经元,它们帮助大脑在决策过程中评估风险与奖励。这些神经元位于腹侧纹状体,分别处理优于预期和劣于预期的结果。在小鼠实验中,抑制这些神经元会改变它们对奖励的预期,从而影响其决策行为。 研究表明,大脑追踪的是可能奖励的完整范围,而不仅仅是平均值,这与机器学习的决策模型一致。如果这一发现在人类中得到证实,可能有助于解释抑郁症和成瘾等疾病中风险评估困难的现象。未来的研究将探讨不确定性如何影响这一大脑回路。 关键事实
来源:哈佛大学研究内容每天,我们的大脑都会做出成千上万个大大小小的决策。这些决策——从选择餐厅这样的小事到追求不同职业或搬到新城市这样的大事——都可能带来更好或更坏的结果。大脑如何在这些决策中评估风险与奖励?这个问题一直困扰着科学家,但哈佛医学院和哈佛大学的研究人员最近进行的一项研究提供了有趣的线索。 这项研究于2月19日发表在《自然》杂志上,部分由联邦资助,结合了机器学习概念和小鼠实验,以研究支持基于奖励的决策的大脑回路。 科学家们在小鼠中发现了两组脑细胞:一组帮助小鼠学习优于预期的结果,另一组与劣于预期的结果相关。实验表明,这些细胞共同使大脑能够评估与选择相关的所有可能奖励。 “我们的研究结果表明,小鼠——以及其他哺乳动物——似乎比我们之前认为的更细致地代表风险和奖励的细节,”共同资深作者、哈佛医学院布拉瓦特尼克研究所神经生物学副教授Jan Drugowitsch说。 如果这一发现在人类中得到证实,可能为理解人类大脑如何做出基于奖励的决策以及当奖励回路失效时判断风险和奖励的能力发生了什么提供框架。 机器学习揭示基于奖励的决策神经科学家长期以来一直对大脑如何利用过去的经验做出新决策感兴趣。然而,根据Drugowitsch的说法,许多关于此类决策的传统理论未能捕捉到现实世界行为的复杂性和细微差别。 Drugowitsch以选择餐厅为例:如果你想稳妥起见,可能会选择一家经验告诉你菜单可靠的餐厅;如果你想冒险,可能会选择一家你知道既有出色菜肴也有平庸菜肴的餐厅。 在上述例子中,餐厅的菜品范围差异很大,但现有的神经科学理论在平均后认为它们是等价的,因此预测选择两者的可能性相等。 “我们知道这不是人类和动物的行为方式——我们可以在寻求风险和稳妥行事之间做出选择,”Drugowitsch说。“我们对与选择相关的预期奖励有更多的感知。” 近年来,机器学习研究人员开发了一种决策理论,更好地捕捉了与选择相关的所有可能奖励。他们将这一理论纳入了一种新的机器学习算法,该算法在Atari视频游戏和其他每个决策有多种可能结果的任务中优于其他算法。 “他们基本上问,如果算法不是只学习某些动作的平均奖励,而是学习整个分布,会发生什么,他们发现这显著提高了性能,”Drugowitsch说。 在2020年发表在《自然》杂志上的一篇论文中,哈佛大学分子与细胞生物学教授Naoshige Uchida及其同事重新分析了现有数据,以探索这种机器学习理论是否适用于神经科学,特别是在啮齿动物大脑的决策背景下。 分析表明,在小鼠中,神经递质多巴胺的活动——在寻求奖励、愉悦和动机中起作用——与算法预测的奖励学习信号相对应。换句话说,Drugowitsch说,这项工作表明新算法在解释多巴胺活动方面表现更好。 小鼠大脑如何代表奖励范围在这项新研究中,Drugowitsch与共同资深作者Uchida合作,将研究进一步推进。他们共同设计了小鼠实验,以观察这一过程如何在大脑的腹侧纹状体中发挥作用,该区域存储与决策相关的可能奖励信息。 “多巴胺活动仅为预期奖励提供学习信号,但我们希望直接在大脑中找到这些学习到的奖励的表征,”Drugowitsch说。 研究人员训练小鼠将不同的气味与不同大小的奖励联系起来——本质上,教会小鼠选择的可能结果范围。然后,他们向小鼠呈现气味,并观察舔舐行为(小鼠在预期更好奖励时舔舐更多),同时记录腹侧纹状体的神经活动。 研究小组在大脑中识别出了两组不同的神经元:一组帮助小鼠学习优于预期的结果,另一组与劣于预期的结果相关。 “你可以把这想象成大脑中有一个乐观主义者和一个悲观主义者,他们都给你提供下一步行动的建议,”Drugowitsch解释说。 当研究人员抑制“乐观”神经元时,小鼠表现出预期奖励较低的 (责任编辑:泉水) |