免费咨询热线 491218(微信搜索加好友)

聚品赞留学

您现在的位置是:首页 > 留学资讯

留学资讯

意大利威尼斯大学对人工智能对幽默理解的局限性研究

人工智能缺乏真正的幽默感。最新的佐证来自11月在中国苏州举行的国际会议上发表的一篇研究论文。该论文由威尼斯大学和卡迪...
人工智能缺乏真正的幽默感。最新的佐证来自11月在中国苏州举行的国际会议上发表的一篇研究论文。该论文由威尼斯大学和卡迪夫大学的联合团队提交,标题为《一语非双关:大型语言模型与幽默理解的错觉》。

研究表明,大型语言模型对人类双关语的理解仍停留在表面。双关语通常利用词语的多义性或发音相似性制造幽默效果,而研究人员发现,只需对双关语进行微小的词汇替换,就足以“欺骗”当前包括GPT-4o、Llama3.3和DeepSeek R1在内的主流模型,暴露出其在现有评估基准中的明显局限。

“大型语言模型在海量文本数据上进行训练,因此我们预期它们能够识别并解释双关语——这对具备良好语言能力的英语使用者来说通常是直观的,”威尼斯大学的信息学博士亚历山德罗·赞加里解释道。他与威尼斯大学的马泰奥·马尔库佐、安德烈亚·阿尔巴雷利,以及卡迪夫大学的穆罕默德·塔赫尔·皮勒瓦尔、何塞·卡马乔-科利亚多共同完成了这项研究。“为验证这一假设,我们让模型区分双关语句和普通句子。结果因模型而异,但总体表现尚可。”

然而,当研究人员将双关语中的关键词替换为另一个词,而保持句子结构基本不变时,情况出现了转折。模型依然倾向于将其判定为双关语,识别准确率骤降至20%左右。“基于实验结果,我们得出结论:这些模型过度依赖语言结构与已知双关语的表面相似性,并未真正理解双关语背后的语义机制与幽默逻辑。”

当前,大型语言模型在传统文本理解评测中已取得接近饱和的高分,学术界正逐渐将研究焦点转向对其抽象推理与复杂理解能力的深入探索。在这一背景下,富含叙事层次与道德内涵的文学作品,成为检验模型是否具备深层理解力的理想试金石。

该团队同期发布了另一项相关研究《Morables:一个用于评估大语言模型在童话与历史故事中进行抽象道德推理的基准》。该基准通过设计多项选择题,测试模型从文本中提取道德判断的能力——即辨别行为的是非、对错或 appropriateness。选项经特别设计,以促使模型超越简单的信息抽取与表面解读,进行真正的伦理推断。

“在道德推理的研究中,我们观察到了与双关语实验相似的模式,”威尼斯大学信息学博士马泰奥·马尔库佐说明,“模型在从选项中选出故事的正确寓意时表现优异,然而,一旦将正确答案从选项中移除,它们并不会意识到正确答案已不存在,反而总是选择一个错误选项作为回答。但当我们进一步追问‘这个寓意是否真的适合这个故事?’时,即使表现最佳的模型也有20%-40%的情况承认其并不合适。这表明,模型往往将‘给出答案’置于‘真实理解’之前。”

“揭示这些局限性,对认识此类工具的实际可靠性至关重要,”亚历山德罗补充道。“在情感智能相关研究中,过度追求模型的‘对齐’与所谓‘温和顺从’,常导致其输出失去讽刺张力与文化敏感性,我们的研究也从侧面反映了这一点。如何在必要的谨慎与真正的理解深度之间取得平衡,避免思维扁平化,是当前领域面临的核心挑战之一。”