一项最新研究表明,大型语言模型(LLMs)在预测神经科学研究结果方面比人类专家更为准确,其准确率达到81%,而神经科学家的准确率仅为63%。研究人员使用名为BrainBench的工具测试了LLMs和人类专家在识别真实与虚构研究摘要方面的表现,发现即使神经科学家具备领域专业知识,AI模型的表现依然更优。此外,专注于神经科学的定制化LLM——BrainGPT,其预测准确率更是高达86%。 这项研究凸显了AI在设计实验、预测结果以及加速跨学科科学进展方面的潜力。 关键发现
研究背景由伦敦大学学院(UCL)领导的研究团队发现,大型语言模型(LLMs)能够比人类专家更准确地预测拟议的神经科学研究结果。这项发表在《自然·人类行为》上的研究表明,经过大量文本数据集训练的LLMs能够从科学文献中提炼出规律,从而以超人的准确性预测科学结果。 研究团队表示,这凸显了LLMs作为加速研究的强大工具的潜力,其功能远不止于知识检索。 研究方法研究团队开发了名为BrainBench的工具,用于评估LLMs在预测神经科学研究结果方面的表现。BrainBench包含多对神经科学研究摘要,每对中一篇是真实的研究摘要,另一篇的背景和方法相同,但结果被相关领域的专家修改为看似合理但错误的版本。 研究人员测试了15种不同的通用LLMs和171名人类神经科学专家(均通过筛选测试以确认其专业知识),要求他们判断哪篇摘要是真实的。结果显示,所有LLMs的表现均优于人类专家,LLMs的平均准确率为81%,而人类专家的平均准确率为63%。 即使将人类专家的范围限制在特定神经科学领域的最高水平(基于自我报告的专业知识),其准确率也仅为66%,仍低于LLMs。 研究结果研究人员还发现,当LLMs对其决策更有信心时,其判断更可能是正确的。这一发现为未来人类专家与经过良好校准的模型合作铺平了道路。 此外,研究人员通过专门训练现有LLM(开源模型Mistral的版本)来适应神经科学文献,开发了名为BrainGPT的神经科学专用LLM。BrainGPT在预测研究结果方面表现更优,准确率达到86%,优于通用版Mistral的83%。 研究意义资深作者、UCL心理学与语言科学教授Bradley Love表示:“我们的研究结果表明,科学家们很快将使用AI工具来设计最有效的实验。尽管我们的研究聚焦于神经科学,但这种方法具有普适性,应能成功应用于所有科学领域。” 研究的主要作者、UCL心理学与语言科学博士Ken Luo补充道:“基于我们的研究结果,我们正在开发辅助研究人员的AI工具。我们设想未来研究人员可以输入他们的实验设计和预期发现,AI将提供各种结果可能性的预测,从而加快实验设计的迭代速度并提高决策的科学性。” 研究支持该研究得到了经济与社会研究理事会(ESRC)、微软和皇家学会Wolfson研究奖的支持,并涉及来自伦敦大学学院、剑桥大学、牛津大学、马克斯·普朗克神经行为研究所(德国)、比尔肯特大学(土耳其)以及其他英国、美国、瑞士、俄罗斯、德国、比利时、丹麦、加拿大、西班牙和澳大利亚机构的研究人员。 关于AI与神经科学研究
原创研究:开放获取。 |