免费咨询热线 491218(微信搜索加好友)

聚品赞留学

您现在的位置是:首页 > 留学新闻

留学新闻

加拿大康考迪亚大学多模态大型语言模型语音处理进展

大型语言模型(LLMs)如ChatGPT和Gemini最初设计用于处理文本,如今已发展为能够同时理解与生成图像、音频...
大型语言模型(LLMs)如ChatGPT和Gemini最初设计用于处理文本,如今已发展为能够同时理解与生成图像、音频、语音、音乐等多种模态信息的系统。其中,将语音整合进多模态模型,是当前研究的重要挑战之一。

目前最常用的方法是将语音信号转换为“音频标记”——类似于文本中的字符,作为模型处理的基本单元。然而,语音信号本身信息密度高、结构复杂,导致音频标记通常比特率较高,即每秒音频承载的信息量较大。这使得模型在学习和处理语音时效率较低,也增加了整合到LLM中的难度。

“语音是一种极其丰富且复杂的信号,”康考迪亚大学(Concordia University)吉娜·科迪工程与计算机科学学院博士生卢卡·德尔·利贝拉(Luca Della Libera)指出,“标准音频标记的高比特率特性,使得大型语言模型难以高效地从语音中学习语义信息。”

为了突破这一瓶颈,德尔·利贝拉及其合作者提出了一种名为 FocalCodec 的新型音频标记化方法。该方法的创新之处在于,能够在极低比特率下有效压缩语音,同时保持音质与语义的完整性。与依赖复杂处理流程的传统方法不同,FocalCodec 结合了二进制球形量化(将音频高效编码为紧凑单元)与焦点调制技术(引导模型聚焦于语音中最具意义的部分),从而在提升处理速度的同时,保留语音的关键声学与语义特征。

为验证FocalCodec的性能,研究团队开展了一项听感实验,邀请33名参与者对不同系统重建的音频样本进行盲测。结果表明,经FocalCodec压缩并重建的语音,在听感上接近原始录音,未出现明显机器人化或失真现象。这证明该系统在实现高效语音压缩的同时,能维持较高的听觉自然度。

这项成果已被人工智能与机器学习领域的顶级会议第39届神经信息处理系统大会(NeurIPS 2024) 接收,显示出学术界对该方法创新性与应用潜力的认可。

“这项工作尤为重要,它提出了一种新颖且高效的语音表示方法,对于构建下一代多模态大语言模型具有重要价值,”德尔·利贝拉的导师、康考迪亚大学助理教授米尔科·拉瓦内利(Mirco Ravanelli)评价道,“通过降低语音数据的处理负担、提升其与文本模态的兼容性,我们离实现能够像理解文字一样自然理解语音的AI系统更近了一步。”

该研究体现了康考迪亚大学与Mila – 魁北克人工智能研究所的持续合作。论文共同作者还包括Mila访问研究员、特伦托大学本科生弗朗切斯科·派桑(Franceso Paissan),以及康考迪亚大学兼职助理教授切姆·苏巴坎(Cem Subakan)。