免费咨询热线 491218(微信搜索加好友)

聚品赞留学

您现在的位置是:首页 > 留学新闻

留学新闻

美国史蒂文斯理工学院对大型语言模型的社会推理机制研究

霍博肯,新泽西州,2025年11月7日——想象这样一个场景:电影中,一位角色将一块巧克力放入盒中,盖上盖子后离开了房...
霍博肯,新泽西州,2025年11月7日——想象这样一个场景:电影中,一位角色将一块巧克力放入盒中,盖上盖子后离开了房间。随后,仍在房间的另一人悄悄将巧克力转移至抽屉内。作为观众,你清楚地知道巧克力此时已在抽屉中,同时也明白:当第一位角色返回时,他仍会去盒中寻找巧克力,因为他并未察觉巧克力已被移动。

这种能够推断他人心理状态的能力——即理解他人对事实的“无知”并预测其行为——被称为“心理理论”。这种看似直觉的“读心”能力,使我们得以通过揣摩他人所思所想,来解释和预判其行动。

人类通常在四岁左右发展出这种能力,且大脑执行起来极为高效。“对人脑而言,这是一个非常轻松的任务,”工程学院计算机科学助理教授赵卓卓指出,“整个过程仅需几秒。”商学院信息系统与分析助理教授张德辉补充道:“执行该任务时,大脑仅调用一小部分神经元,因此能耗极低。”

然而,当前流行的大型语言模型与人类大脑的运行机制截然不同。尽管其设计灵感部分来源于神经科学与认知科学,但它们并非人脑的精确模拟。LLM 基于人工神经网络构建,这类网络虽在结构上近似生物神经元组织,但其学习完全依赖于从海量文本中识别模式,并通过数学函数进行计算。

这使得 LLM 在处理巨量信息时具有人类难以企及的速度优势,但在处理简单任务时的能效却远低于人脑。无论任务复杂与否,LLM 都需要激活整个神经网络才能生成答案。因此,无论是询问时间,还是总结《白鲸记》这部关于鲸鱼的文学巨著,LLM 都会调动全部网络资源,导致计算冗余与能耗过高。

“人类在面对新任务时,仅需激活大脑的局部区域;而 LLM 即使应对相当基础的问题,也需启动网络的大部分结构,”张德辉解释说,“LLM 必须完成所有计算,再从中筛选所需结果。这意味着大量计算资源被浪费在不必要的运算上,效率十分低下。”

为此,张德辉与徐教授开展跨学科合作,共同探究 LLM 的运作机制,并致力于提升其在社会推理任务中的效率。

他们的研究发现,LLM 在处理社会推理时,会调用一组小型而专用的内部连接模块。同时,模型的社会推理能力高度依赖于其如何表征词语的位置信息——尤其是通过一种称为旋转位置编码的技术。这些特定连接影响着模型对不同词语与概念的关注程度,实质上引导着它在“思考他人想法”时的注意力分配。

“简而言之,我们的研究表明,LLM 通过内嵌的编码机制来追踪词语之间的位置与关联,从而构建内部‘信念’并进行社会推理,”张德辉总结道。两位研究者于2025年8月28日在《自然合作期刊·人工智能》上发表了题为《大型语言模型如何编码心理理论:稀疏参数模式研究》的论文,系统阐述了上述发现。

随着对 LLM “信念形成”机制理解的深化,研究团队认为有望进一步提升其运行效率。“我们都很清楚,人工智能消耗着巨大的能源。若想实现可持续扩展,就必须改变其运行模式,”徐教授强调,“人脑是高效能耗的典范。我们希望这项研究能推动 LLM 向人脑靠拢——仅激活与特定任务相关的参数子集,而非全网络运作。这是我们希望传递的核心观点。”

关于史蒂文斯理工学院

史蒂文斯理工学院是一所坐落于新泽西州霍博肯的顶尖私立研究型大学。自1870年建校以来,技术创新始终贯穿其教育与研究的传统。在校内三大学院及一个学部的架构下,逾8000名本科生与研究生在跨学科、以学生为中心、充满创业精神的环境中,与教师紧密协作。涵盖商科、计算机、工程、艺术等多领域的学术与研究项目,持续推动科学前沿发展,并借助技术应对全球最紧迫的挑战。该校在职业服务、毕业生起薪、学费投资回报率等方面长期位列全美前茅。