机器学习基于副语言信息的情感识别

2018-12-13 18:08:55作者:Ingrid Fadelli,Tech Xplore来源: a&s智慧生活

[摘要] 机器学习技术的最新进展,导致通过分析图像、录音、脑电图或心电图来识别情绪状态的工具出现。这些工具有几个有趣的应用程序,例如,实现更有效的人机交互,其中计算机识别并响应人类用户的情绪。

  德克萨斯大学阿灵顿分校(意译)的研究人员最近探讨了机器学习仅用于副语言信息的情感识别。副语言学是口语交际的一个方面,不涉及单词,如音高、音量、语调等。

  机器学习技术的最新进展,导致通过分析图像、录音、脑电图或心电图来识别情绪状态的工具出现。这些工具有几个有趣的应用程序,例如,实现更有效的人机交互,其中计算机识别并响应人类用户的情绪。

RTX截图未命名.jpg


4种情感示例谱图,图片来源:Papakostas等

  “一般来说,人们可能会争辩说,言语带有两种不同类型的信息:显性或语言信息,其中涉及说话者的发音模式;以及隐含或副语言信息,涉及语言模式发音的变化,”研究人员在他们发表在“ 实验医学与生物学进展 ”系列丛书中的论文写道。“使用其中一种或两种类型的信息,人们可能会尝试根据它所携带的情感对包含语音的音频片段进行分类。然而,即使对于人类来说,语音识别也是一项非常困难的任务,无论他/她是否是该领域的专家(例如心理学家)。”

  许多现有的自动语音识别(ASR)方法试图通过分析语言和副语言信息来识别来自语音的情绪。通过部分关注语言属性,这些模型有一些缺点,例如严格的语言依赖性。因此,研究人员决定仅基于对副语言信息的分析来关注情绪识别,希望获得多语言情感识别。

  研究人员在他们的论文中写道:“在本文中,我们的目的是仅仅基于副语言信息来分析说话者的情绪。” “我们比较了两种机器学习方法,即卷积神经网络(CNN)和支持向量机(SVM)。”

  研究人员在原始光谱图上训练了CNN模型,在一组低级特征上训练了SVM模型。使用三种广为人知的情绪语音数据集训练和评估两种模型:EMOVO,SAVEE和EMO-DB。这些数据集包含不同语言的情感语音记录 - 意大利语,英语和德语。

  两种机器学习模型经过训练,可以识别四种常见的情绪类别:快乐、悲伤、愤怒和中立。研究人员为每种机器学习方法进行了三次实验,其中一个数据集用于测试,其余两个用于训练。

  “选择数据集产生的一个主要困难是语言之间的巨大差异,因为除语言差异外,每种情绪的表达方式也存在很大差异,”研究人员在他们的论文中写道。

  总体而言,他们发现SVM的表现远远优于CNN,在SAVEE和EMOVO数据集上进行训练后获得了最佳结果,但在EMO-DB上进行了测试。这些结果很有希望,但并不是最优的,这表明我们距离实现持续有效的多语言情感识别还有很长的路要走。

  “我们未来的工作计划包括使用更多的数据集进行培训和评估,”研究人员在他们的论文中写道。“我们还旨在调查其他预训练的深度学习网络,因为我们认为深度学习可能会对手头的问题做出重大贡献。最后,我们的计划之一是将这些方法应用于现实生活中的问题,例如培训中的情感识别和/或教育计划。”

注:本文编译自techxplore

0
[责任编辑:黄文凤]

安全自动化 官方微信    as视界 服务号

不得转载声明: 凡文章来源标明“安防知识网”的文章著作权均为本站所有,禁止转载,除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。

专栏
我要投稿
文章排行榜
杂志
  • 安全&自动化2023年9-10月 第261期
    2023年11月第261期
    2022-2023年,全球经济前景的“不确定性”正在对安防与其他行业产生着重大的影响,通货膨胀、供应链挑战、地缘政治冲突、全球劳动力市场结构变化……不稳定的经济环境在很大程度上给全球安防行业的发展带来了极大的阻力。2022年国内安防市场保持着增长,但增速放缓,2023年国内宏观经济呈现复苏态势,市场需求有所回暖,但由于国内政府财政收支减少、部分项目进展缓慢、房地产市场下滑、企业端市场投资信心减弱等因素,给安防企业带来持续挑战。