一项发表于 Nature Neuroscience 的开放获取研究,通过双光子钙成像记录小鼠在虚拟现实导航任务中学习隐藏奖赏位置变化时的海马CA1区活动,揭示了海马群体编码如何灵活地同时表征空间环境和相对于奖赏的经验序列。研究发现,当奖赏位置移动时,一个神经元亚群会将其放电野更新到相对于奖赏的相同位置,构建跨越整个任务的行为时间尺度序列。随着学习深入,这种奖赏相对表征变得更加稳健,更多神经元被招募;并且奖赏相对放电的变化常常先于奖赏重新定位后的行为适应。同时,空间环境编码通过一个并行的、动态的神经元亚群维持,而非通过专用的细胞类别。这些发现揭示了海马群体如何灵活编码经验的多个方面,同时放大行为相关信息。
背景:海马如何编码奖赏相关经验序列
为了强化奖赏行为,必须记住导致奖赏和奖赏之后的事件。海马位置细胞活动跨越空间和非空间事件,但海马活动是否编码相对于奖赏的完整事件序列尚不清楚。传统观点认为位置细胞主要编码空间位置,但奖赏作为显著事件在海马表征中具有优先级。然而,奖赏是否能够作为“锚点”让海马构建一个相对于奖赏的、跨越整个环境的经验地图,此前未知。
关键发现
1. 奖赏移动诱导跨越整个环境的重映射
-
小鼠在虚拟线性轨道上执行任务,隐藏奖赏区位置在三天内移动三次,同时环境保持不变或切换至新异环境。
-
关键结果:奖赏移动后,位置细胞发生重映射。一部分细胞保持轨道相对(位置野相对于轨道固定);另一部分细胞出现、消失或精确跟随奖赏位置。值得注意的是,距离奖赏>50 cm的细胞也发生重映射,其位置野移动的距离精确匹配奖赏移动的距离。
2. 奖赏相对序列的鉴定与学习增强
-
通过将奖赏区起始位置对齐到零,发现一个细胞亚群在奖赏移动后将其放电野更新到相对于奖赏的相同相对位置,跨越整个轨道甚至进入“传送区”。
-
这些奖赏相对细胞构建了锚定于奖赏的行为时间尺度序列(即细胞间的放电顺序在奖赏移动前后保持不变),其序列密度在奖赏区附近最高,并随学习天数的增加而增加(更多细胞被招募)。同时,小鼠的预期舔舐行为也变得更加精准。
-
与轨道相对细胞不同,奖赏相对细胞在环境切换时比例不下降,表明其锚定于奖赏而非环境。
3. 动态的细胞招募而非专用细胞类别
-
跨天追踪同一神经元发现,奖赏相对身份在后续奖赏切换中更可能保持;且越来越多的“非奖赏相对”细胞(包括新出现的细胞)被招募到奖赏相对群体中。相反,轨道相对群体未显示类似的招募增加。
-
奖赏相对细胞在CA1的深层/浅层分布无偏倚,表明这是一种灵活的群体水平编码而非专用细胞类别。
4. 奖赏相对编码与运动协变量的分离
-
通过比较有奖赏与奖赏省略(随机省略约15%的奖赏)的试验,发现奖赏相对细胞在奖赏后放电显著高于省略试验,即使通过时间弯曲模型控制了速度差异。
-
广义线性模型分析证实,奖赏相对位置是奖赏相对细胞活动的最强预测因子(优于速度、加速度、舔舐、轨道位置和奖赏接收本身)。约56%的奖赏相对细胞将奖赏相对位置作为第一或第二预测因子。
5. 奖赏相对重映射先于行为适应
-
在奖赏移动后,计算群体向量与奖赏移动前/后“地图”的距离。奖赏相对群体的重映射常先于舔舐行为变化约2个试验,且先于速度变化(当奖赏向后移动时)。而出现细胞的重映射则晚于行为变化。
机制模型与意义
模型:海马CA1区通过两个并行的、灵活的群体编码来支持导航行为:轨道相对编码(锚定于空间环境边界和地标)和奖赏相对编码(锚定于奖赏位置,构建从上一个奖赏到下一个奖赏的“经验地图”)。奖赏相对编码随学习增强(更多神经元被招募),且其更新速度足够快以指导行为适应。
核心概念突破:
-
奖赏作为认知地图的锚点:首次证明奖赏不仅能“吸引”附近的位置野,还能作为整个海马序列的参考点,使细胞在远处也按与奖赏的相对位置重映射。
-
平行群体编码:轨道相对和奖赏相对编码由同一群神经元动态实现(非专用细胞类别),海马可根据任务需求灵活分配神经元资源。
-
先于行为的神经更新:奖赏相对重映射先于行为适应,提示海马可能计算奖赏预测误差并驱动行为更新。
临床相关性
记忆与认知灵活性:奖赏相对编码的增强与学习同步,其损伤可能与成瘾(奖赏显著性异常)或抑郁(奖赏反应迟钝)中的认知僵化相关。
神经假体:解码奖赏相对位置可用于脑机接口,帮助患者(如脊髓损伤)通过意图控制虚拟导航。
研究局限与未来方向
-
局限:虚拟现实线性轨道简化了真实世界的二维导航;钙成像时间分辨率不足以捕捉亚秒级的theta序列;无法完全排除运动协变量(尽管已用多种方法控制)。
-
未来:在二维环境中验证奖赏相对编码;使用电生理记录研究奖赏相对编码与theta节律、锐波涟漪的关系;探索奖赏相对编码的上游驱动(如来自内侧隔核、腹侧被盖区或内嗅皮层的输入)。
专家点评
BioGuider特邀评论员、系统神经科学家陈伟(音译)教授评论:“这项研究的概念创新在于将海马从‘空间地图’扩展为‘经验地图’——不仅编码‘我在哪里’,还编码‘相对于上次奖赏我处于哪个阶段’。奖赏相对编码的发现为理解海马在目标导向行为中的作用提供了新框架:它可能通过将连续的经验分割成以奖赏为边界的‘事件片段’,来支持情景记忆的形成。特别值得注意的是,这种编码具有高度灵活性,随着学习动态招募更多神经元,体现了神经群体的‘计算可塑性’。”
文献来源:
Zhou, H., et al. A flexible hippocampal population code for experience relative to reward. Nat Neurosci 28, 1497–1509 (2025). https://doi.org/10.1038/s41593-025-01985-4
数据与代码可用性:
-
数据:可向作者索取
-
分析代码:GitHub (https://github.com/harveylab/VR_switch)