AI超越专家：预测神经科学研究结果的准确率高达81%

一项最新研究表明，大型语言模型（LLMs）在预测神经科学研究结果方面比人类专家更为准确，其准确率达到81%，而神经科学家的准确率仅为63%。研究人员使用名为BrainBench的工具测试了LLMs和人类专家在识别真实与虚构研究摘要方面的表现，发现即使神经科学家具备领域专业知识，AI模型的表现依然更优。此外，专注于神经科学的定制化LLM——BrainGPT，其预测准确率更是高达86%。

这项研究凸显了AI在设计实验、预测结果以及加速跨学科科学进展方面的潜力。

关键发现

LLMs在预测研究结果方面优于人类神经科学家（81% vs. 63%）。
神经科学专用LLM——BrainGPT的预测准确率达到86%。
AI工具有望改进实验设计和科学创新。

研究背景

由伦敦大学学院（UCL）领导的研究团队发现，大型语言模型（LLMs）能够比人类专家更准确地预测拟议的神经科学研究结果。这项发表在《自然·人类行为》上的研究表明，经过大量文本数据集训练的LLMs能够从科学文献中提炼出规律，从而以超人的准确性预测科学结果。

研究团队表示，这凸显了LLMs作为加速研究的强大工具的潜力，其功能远不止于知识检索。

研究方法

研究团队开发了名为BrainBench的工具，用于评估LLMs在预测神经科学研究结果方面的表现。BrainBench包含多对神经科学研究摘要，每对中一篇是真实的研究摘要，另一篇的背景和方法相同，但结果被相关领域的专家修改为看似合理但错误的版本。

研究人员测试了15种不同的通用LLMs和171名人类神经科学专家（均通过筛选测试以确认其专业知识），要求他们判断哪篇摘要是真实的。结果显示，所有LLMs的表现均优于人类专家，LLMs的平均准确率为81%，而人类专家的平均准确率为63%。

即使将人类专家的范围限制在特定神经科学领域的最高水平（基于自我报告的专业知识），其准确率也仅为66%，仍低于LLMs。

研究结果

研究人员还发现，当LLMs对其决策更有信心时，其判断更可能是正确的。这一发现为未来人类专家与经过良好校准的模型合作铺平了道路。

此外，研究人员通过专门训练现有LLM（开源模型Mistral的版本）来适应神经科学文献，开发了名为BrainGPT的神经科学专用LLM。BrainGPT在预测研究结果方面表现更优，准确率达到86%，优于通用版Mistral的83%。

研究意义

资深作者、UCL心理学与语言科学教授Bradley Love表示：“我们的研究结果表明，科学家们很快将使用AI工具来设计最有效的实验。尽管我们的研究聚焦于神经科学，但这种方法具有普适性，应能成功应用于所有科学领域。”

研究的主要作者、UCL心理学与语言科学博士Ken Luo补充道：“基于我们的研究结果，我们正在开发辅助研究人员的AI工具。我们设想未来研究人员可以输入他们的实验设计和预期发现，AI将提供各种结果可能性的预测，从而加快实验设计的迭代速度并提高决策的科学性。”

研究支持

该研究得到了经济与社会研究理事会（ESRC）、微软和皇家学会Wolfson研究奖的支持，并涉及来自伦敦大学学院、剑桥大学、牛津大学、马克斯·普朗克神经行为研究所（德国）、比尔肯特大学（土耳其）以及其他英国、美国、瑞士、俄罗斯、德国、比利时、丹麦、加拿大、西班牙和澳大利亚机构的研究人员。

关于AI与神经科学研究

作者：Chris Lane
来源：UCL
联系人：Chris Lane – UCL

原创研究：开放获取。
“Large language models surpass human experts in predicting neuroscience results” by Ken Luo et al. Nature Human Behavior

(责任编辑：泉水)

搜索

热门标签: