美国卡内基梅隆大学研究人工智能助力儿童言语障碍治疗
患有言语障碍(如口吃)的儿童,常常难以获得家人、老师及同伴的理解,这使得他们在学校环境与日常交流中面临更多困难。目前...
患有言语障碍(如口吃)的儿童,常常难以获得家人、老师及同伴的理解,这使得他们在学校环境与日常交流中面临更多困难。目前,全国范围内言语语言病理学家数量不足,许多孩子无法得到所需的持续性专业支持。
为填补这一服务空白,美国卡内基梅隆大学计算机科学学院的研究人员正在开发一款专为儿童设计的人工智能工具。与多数面向成人的语音重建技术不同,该团队研发的系统能利用儿童自身的声音生成纠正后的音频。
这一区别至关重要:研究指出,儿童在听到自己正确发音的声音时,学习语音目标的效果更好,相比之下,成人或中性合成语音的示范作用则较为有限。
该工具名为 ChiReSSD(儿童构音障碍重建语音系统) ,结合机器学习与人类语音学,生成听起来如同孩子本人正确发音的音频片段。例如,若孩子在发双“r”音(如“curry”)时遇到困难,该系统仅需一段孩子的语音录音和相应文本输入,即可生成孩子正确说出该词的音频。
“其临床潜力非常重要,”卡内基梅隆大学语言技术研究所(LTI) 的助理研究教授大卫·莫滕森表示,“让孩子听到自己‘说’出原本发音有困难的语句,同时消除发音错误,这一构想可能具有革命性意义。”
莫滕森对开发辅助言语障碍儿童技术的兴趣,源于他的女儿。他指出,女儿所在学校的言语治疗师工作负荷极大,女儿每年仅能接受一两次治疗。他意识到,若能开发出帮助言语治疗师提升效率的技术,将能让更多孩子受益。
LTI 的教授卡洛斯·布索与博士生凯伦·罗塞罗认为,ChiReSSD 是开发能应对儿童言语障碍的音视频工具的关键一步。该系统目前专注于音频生成,而罗塞罗与布索在早前研究中已开发出基于视频的人工智能工具,用于分析唇腭裂修复手术后的语音清晰度。
“我们致力于生成听起来像孩子、看起来也像孩子的语音与面部图像,”布索解释道,“这些音视频素材可相互结合,对照比较失调语音与重建后的正确发音。由此,我们可以精准定位孩子的发音错误,并设计更具针对性的干预方案,比如针对特定语音问题的词汇练习。”
ChiReSSD 仅需一段儿童任意说话的音频,即可完成语音重建。该工具会将孩子的语音身份特征(如音高、声学模式)与音位内容(即所说的内容)分离。基于人工智能的模型从孩子的语音身份表征中学习,随后系统根据音位内容识别并纠正发音错误。最终,结合对语音身份的理解与目标文本输入(如“鸡肉咖喱”或“兔子”),ChiReSSD 可生成一段仿佛由孩子正确发音的修正音频。
“心理学研究表明,患者听到与自己相似的声音时获益更大,”罗塞罗补充说,“如果语音合成工具提供的是成人或标准合成声音,对儿童而言,其效果可能不如听到自己声音作为发音参考那样直接有效。”
布索表示,当前工作已在语音语调纠正方面取得显著进展。团队下一步将聚焦于在视频中实现同等效果,构建更为立体的发音矫正辅助系统。
该研究团队除 LTI 成员外,还包括计算机科学学院前访问学者尹妍晶、言语语言病理学家考特尼·范特·斯洛特,以及德克萨斯大学西南医学中心的副教授拉米·哈拉克。他们正携手推进这项融合人工智能与言语治疗的前沿工作,为言语障碍儿童提供更个性化、易获取的支持方案。
为填补这一服务空白,美国卡内基梅隆大学计算机科学学院的研究人员正在开发一款专为儿童设计的人工智能工具。与多数面向成人的语音重建技术不同,该团队研发的系统能利用儿童自身的声音生成纠正后的音频。
这一区别至关重要:研究指出,儿童在听到自己正确发音的声音时,学习语音目标的效果更好,相比之下,成人或中性合成语音的示范作用则较为有限。
该工具名为 ChiReSSD(儿童构音障碍重建语音系统) ,结合机器学习与人类语音学,生成听起来如同孩子本人正确发音的音频片段。例如,若孩子在发双“r”音(如“curry”)时遇到困难,该系统仅需一段孩子的语音录音和相应文本输入,即可生成孩子正确说出该词的音频。
“其临床潜力非常重要,”卡内基梅隆大学语言技术研究所(LTI) 的助理研究教授大卫·莫滕森表示,“让孩子听到自己‘说’出原本发音有困难的语句,同时消除发音错误,这一构想可能具有革命性意义。”
莫滕森对开发辅助言语障碍儿童技术的兴趣,源于他的女儿。他指出,女儿所在学校的言语治疗师工作负荷极大,女儿每年仅能接受一两次治疗。他意识到,若能开发出帮助言语治疗师提升效率的技术,将能让更多孩子受益。
LTI 的教授卡洛斯·布索与博士生凯伦·罗塞罗认为,ChiReSSD 是开发能应对儿童言语障碍的音视频工具的关键一步。该系统目前专注于音频生成,而罗塞罗与布索在早前研究中已开发出基于视频的人工智能工具,用于分析唇腭裂修复手术后的语音清晰度。
“我们致力于生成听起来像孩子、看起来也像孩子的语音与面部图像,”布索解释道,“这些音视频素材可相互结合,对照比较失调语音与重建后的正确发音。由此,我们可以精准定位孩子的发音错误,并设计更具针对性的干预方案,比如针对特定语音问题的词汇练习。”
ChiReSSD 仅需一段儿童任意说话的音频,即可完成语音重建。该工具会将孩子的语音身份特征(如音高、声学模式)与音位内容(即所说的内容)分离。基于人工智能的模型从孩子的语音身份表征中学习,随后系统根据音位内容识别并纠正发音错误。最终,结合对语音身份的理解与目标文本输入(如“鸡肉咖喱”或“兔子”),ChiReSSD 可生成一段仿佛由孩子正确发音的修正音频。
“心理学研究表明,患者听到与自己相似的声音时获益更大,”罗塞罗补充说,“如果语音合成工具提供的是成人或标准合成声音,对儿童而言,其效果可能不如听到自己声音作为发音参考那样直接有效。”
布索表示,当前工作已在语音语调纠正方面取得显著进展。团队下一步将聚焦于在视频中实现同等效果,构建更为立体的发音矫正辅助系统。
该研究团队除 LTI 成员外,还包括计算机科学学院前访问学者尹妍晶、言语语言病理学家考特尼·范特·斯洛特,以及德克萨斯大学西南医学中心的副教授拉米·哈拉克。他们正携手推进这项融合人工智能与言语治疗的前沿工作,为言语障碍儿童提供更个性化、易获取的支持方案。