揭秘语音交互：个性化AI打造“数字化的你”

2018-07-18 11:44:28作者：侯纪磊来源: a&s智慧生活

[摘要] 终端侧AI正在支持虚拟助理的发展，而个性化正成为今天的虚拟助理和未来真正个人助理之间的主要差异。

　　从更精美的照片、更高的安全性到更自然的用户界面(UI)，人工智能(AI)正以无缝的方式更多地丰富我们的生活。高能效和个性化是Qualcomm AI Research的核心研究领域，因为它们对于下一代无处不在的智能用户体验而言不可或缺。终端侧AI正在支持虚拟助理的发展，而个性化正成为今天的虚拟助理和未来真正个人助理之间的主要差异。

　　AI驱动语音交互革命

　　语音是我们一直期盼的变革性交互方式，它可以提供用户与终端间的自然交互，而无需任何手部操作。先进的语音交互具有始终开启、对话式、个性化和私密的特征，可支持我们进行高效且自然的对话。从智能手机、智能音箱到扩展现实(XR)设备和汽车，语音交互正在众多产品种类中日益发展和普及。

　　要实现端到端的语音交互体验，其中需要多个组件的支持(见图1)。语音交互的流程是这样的：首先麦克风采集语音信号，然后是语音预处理、语音激活、语音识别和自然语言理解，最终是终端通过语音合成的方式响应用户。由此可见，端到端的语音交互是个多步骤的复杂流程。

　　图1：语音交互的功能组件。

　　为什么今天语音交互变得如此普及?一个重要因素是，机器学习已经点燃了语音交互的革命。机器语音识别的准确率正不断逼近95%，达到与人类准确率相当的水平。当机器准确率不能达到人类的水平，整个语音交互过程就没法做到对话式的自然高效交流，因此用户体验会有显著下降。机器学习技术可应用于几乎所有的语音交互组件之上，从而提升各方面及整体的交互体验。

　　终端侧的语音交互至关重要

　　因计算、内存和功率的限制，主要语音交互组件(如自动语音识别和自然语言处理)传统上都由云端AI所支持。但是，终端侧处理具有众多独特的优势，包括更快的响应速度、更高的可靠性和更好的隐私保护。尤其是在私密性方面，今天的消费者渴望把数据掌握在自己手中，并且有权选择是否将数据发到云端进行处理或存储。因此，更多在终端上进行处理并为云端功能提供补充，这是目前行业的重要趋势之一。而其中的主要挑战在于，需要在移动终端的功耗和散热限制下运行并实现复杂的语音交互功能。

　　图2：语音交互的主要组件正向终端侧迁移。

　　Qualcomm正积极应对这项挑战，并把低功耗的终端侧AI应用于语音交互组件之上。以下是几个例子：

　　º 语音降噪将带噪语音处理成清晰语音并输出，这在嘈杂环境中尤其重要。Qualcomm AI Research正在开发一个降噪深度学习模型，该模型与传统方法相比有显著的性能提升，并具有较高效率可在助听器这样非常受限的处理能力、功耗和散热条件下运行。

　　º 自动语音识别将语音转录为文本。测试表明，深度学习技术可在移动终端上实现顶级的语音识别准确率。Qualcomm AI Research已经完成了一个深度学习声学模型的训练并使其适应每个用户的口音和环境，从而提高个性化程度。

　　今天，终端侧的语音交互已经成为现实。Qualcomm AI Research已经可以在终端侧实现整体的端到端语音交互处理，并在2018年的CES大会上演示了智能家居中的端到端语音交互体验。在适应口音和环境后，这项演示对特定领域的指令集已经可以实现超过95%的意图理解准确率。

　　个性化成就真正的虚拟助理

　　真正的虚拟助理是在终端里面有一个“数字化的我”。因此，它需要分析个人信息并不断学习用户偏好，从而成为真正了解用户的数字助理。情境式智能是实现个性化的必备条件，而实现情景式智能需要融合多种终端侧传感器的数据(如麦克风、摄像头和陀螺仪)及其他终端侧和终端外数据(见图3)。

　　图3：情境式智能融合多种传感器和个人信息。

　　增强个性化的一大好处在于，它能够推动个人助理进一步发展并兼具响应性和主动性。真正的个人助理不仅能够在用户提问时提供个性化的答案，还能基于情境分析进行自主决策和无提示对话。

　　为进一步提升虚拟助理的个性化程度，Qualcomm AI Research正对终端侧的“AI agent”展开研究，它有望从所有传感器数据中不断学习个人信息，最终实现直观行动。AI agent的关键功能包括情境式融合及学习，这最终将支持个性化响应并丰富我们的生活。初步研究结果已展现出终端侧个性化的远大前景。个性化不仅将提升虚拟个人助理的用户体验，而且将丰富我们生活的方方面面。这项技术将变革众多行业，不断推动行业创新。

　　文/Qualcomm高级总监兼AI研究项目负责人侯纪磊博士。

[责任编辑：黄文凤]

a&s作者专栏开通指南

安全自动化官方微信 as视界服务号

不得转载声明： 凡文章来源标明“安防知识网”的文章著作权均为本站所有，禁止转载，除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。

聚合阅读

语音交互虚拟助理 Qualcomm

: 声纹识别语音交互领域的下一个风口？

声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

: 百度宣布免费开放2项语音识别技术推动语音交互普及

百度表示将为开发者提供百度大脑的声学模型和语音模型，基础服务免费，可永久使用。

专栏

麻雀

AIGC与ChatGPT对AIoT行业的影响

2023年将是AIGC产业大年，对于AIoT行业有哪些影响？

侯刚平

博物馆入侵报警系统设计，从这5点做起

安防工程的入侵报警系统在一些高风险单位中非常重要，例如车...

joy

安防IT化效应加速　视频监控将重复智能手机进化史？

过去嵌入式版块技术平均落后IT产业3年以上的态势正在发生变化...
九江琵琶客

智能家居的产品形态三部曲

随着智能家居概念的火爆，其充斥了各个新闻话题版面。可是迄...

TonyGkun

前端智能化引领监控智能新常态

随着前端智能技术的落地和实际应用，越来越多的智能化功能逐...

江宇

关于视频监控网络设计的讨论

在A&S 安防知识网上申请了作者专栏，刚好在此网站上看到一篇...
焦盛元

AI 赋能视频新商业价值

赋能视频，AI为安防带来了全新的商业价值。

蒲娟

专访华为安防张忠：华为在安防领域的成长定位与发展部署

以前华为在安防领域是若隐若现的存在，不做行业的发动机，但...

林浩葵

大模型时代，AI芯片迎来新机遇

自ChatGPT问世以来，业内对于AI的期待再次提升，用大模型赋能...

换一换

我要投稿

文章排行榜

杂志

安全&自动化2023年9-10月第261期

2023年11月第261期

2022-2023年，全球经济前景的“不确定性”正在对安防与其他行业产生着重大的影响，通货膨胀、供应链挑战、地缘政治冲突、全球劳动力市场结构变化……不稳定的经济环境在很大程度上给全球安防行业的发展带来了极大的阻力。2022年国内安防市场保持着增长，但增速放缓，2023年国内宏观经济呈现复苏态势，市场需求有所回暖，但由于国内政府财政收支减少、部分项目进展缓慢、房地产市场下滑、企业端市场投资信心减弱等因素，给安防企业带来持续挑战。

活动展会

IOTE 2026 第二十五届国际物联网展・深圳站

本届展会将进一步扩容，全面覆盖AI芯片、大模型、智慧城市、工业物联网、智能物流、智能家居、机器人、智能硬件、嵌入式技术、工业物联网与电子纸等全产业链，继续联动AGIC人工智能展与ISVE智慧商显展，打造AIOT生态的全球舞台。
2026 年 Intersec Shanghai 国际安全科技与应用展览会
2026新疆航空航天防务科技装备博览会
2026第八届中国（昆明）南亚社会公共安全科技博览会
2026中国(上海)防务与安全装备展览会 6 月启幕打造全球防务安全领域合作新平台