免费咨询热线 491218(微信搜索加好友)

聚品赞留学

您现在的位置是:首页 > 留学新闻

留学新闻

美国埃默里大学对多模态人工智能算法统一框架研究

人工智能正日益广泛地应用于整合与分析多种模态数据,例如文本、图像、音频和视频。然而,多模态人工智能的发展仍面临一项关...
人工智能正日益广泛地应用于整合与分析多种模态数据,例如文本、图像、音频和视频。然而,多模态人工智能的发展仍面临一项关键挑战:如何为特定任务选择最匹配的算法方法。

近期,科学家提出了一种统一的AI方法视角,旨在系统化这一选择过程。《机器学习研究杂志》发表了埃默里大学物理学家团队开发的新算法推导框架,为该领域提供了理论支持。

“我们发现,当前许多成功的人工智能方法可以归结为一个简洁的核心思想——对多类数据进行压缩,同时保留能够有效预测目标的关键信息片段,”埃默里大学物理学教授、该论文通讯作者伊利亚·内姆曼解释道,“这相当于为AI方法构建了一张‘元素周期表’。不同的方法根据其损失函数所保留或丢弃的信息类型,可被归入不同的‘单元格’。”

损失函数是人工智能系统中的关键数学工具,用于量化模型预测的误差。在训练过程中,通过调整模型参数以最小化损失函数,系统得以逐步提升预测准确性。

“针对多模态人工智能系统,研究人员已提出数百种不同的损失函数,它们在不同情境下效果各异,”内姆曼指出,“我们探索的目标是:是否存在一种更系统的方法,避免每次面对新问题时都从头开始设计?”

统一框架的构建

研究团队建立了一个基于信息取舍的数学框架,可针对具体问题推导出相应的损失函数,并将其命名为“变分多变量信息瓶颈框架”。

“该框架如同一个精密的控制面板,”共同作者迈克尔·马丁尼比喻道。他曾作为博士后研究员和研究科学家在内姆曼课题组参与该项目。“通过调节‘旋钮’,我们可以根据任务需求决定应保留哪些信息。”

“这是一种具有普适性、基于原理的方法,”论文第一作者埃斯拉姆·阿卜杜勒艾勒姆补充道。他于今年五月获得埃默里大学物理学博士学位,目前是佐治亚理工学院的博士后研究员。“我们的目标不仅是帮助开发者设计出针对特定问题的AI模型,更要让他们理解模型每一部分的作用机制与原理。”

该框架可用于引导新算法设计、预测算法效果、估算多模态算法所需数据规模,并预判潜在失败场景。“同样重要的是,”内姆曼强调,“它有望帮助我们构建更准确、更高效、更可信赖的人工智能方法。”

物理学的思维路径

研究团队为多模态人工智能系统的优化设计带来了独特的物理学视角。

“机器学习领域往往侧重于提升系统准确性,而不一定深究其工作原理,”阿卜杜勒艾勒姆解释道,“作为物理学家,我们更关注事物运作的根本原理。因此,我们致力于寻找连接不同AI方法的基础性统一原则。”

阿卜杜勒艾勒姆与马丁尼通过大量数学推导,将各类人工智能方法化繁为简,追溯其本质。“我们花了数年时间,常常待在办公室里,面对白板演算,”马丁尼回忆道,“有时我在纸上推导,埃斯拉姆就从旁审视与讨论。”这个过程历经多次试错、计算机验证、与内姆曼讨论,并反复回归理论重构。

科学探索中的心动时刻

突破到来的那一刻令他们记忆犹新。

团队提出了一个统一原理,清晰描述了数据压缩与重建之间的权衡关系。“我们在两个测试数据集上验证了模型,展示了它如何自动发现数据间的共享重要特征,”马丁尼说,“那一刻的感觉非常美妙。”

当天,阿卜杜勒艾勒姆在经历高强度的思考与突破后离开校园,偶然查看自己的三星Galaxy智能手表——该设备搭载的人工健康监测系统记录了他当天的心率变化,却对他的情绪状态产生了误判。“手表显示我骑了三小时自行车,”他笑道,“它把我因科研突破带来的心跳加速解读成了运动消耗。这真是一个有趣的巧合,恰恰印证了科学研究所能带来的强烈兴奋感。”

框架应用与展望

研究团队已将这一框架应用于数十种现有AI方法中进行验证。“我们通过计算机仿真表明,该通用框架在基准数据集上的测试问题中表现良好,”内姆曼介绍,“它能够更便捷地推导损失函数,这意味着在某些任务上可用更少的数据达到目标效果。”

该框架还有潜力降低人工智能系统的计算需求。“通过引导选择最优AI方法,它能帮助避免编码无关特征,从而减少数据需求与计算负载,降低对环境的影响,”内姆曼指出,“这也可能为一些因数据稀缺而难以推进的前沿研究开辟新的可能性。”

研究团队希望这一通用框架能被广泛用于针对具体科学问题定制新算法。同时,他们正基于该成果探索更多潜在应用,尤其在生物模式识别领域,以期获得对认知功能等过程的深入理解。

“我希望理解大脑如何同时压缩与处理多源信息,”阿卜杜勒艾勒姆展望道,“我们能否开发一种方法,揭示机器学习模型与人脑处理机制之间的相似性?这可能有助于我们更深刻地理解这两个复杂的智能系统。”