边界!语音交互技术在垂直领域是有边界的!

a&s对话云知声创新事业部总裁陈吉胜
2018-06-15 14:18:54作者:黄文凤来源: a&s智慧生活

[摘要] 归根到底,技术的终级价值都要体现在实际应用中,如何让语音交互技术有效落地,为商业社会创造真正的价值,早已成为AI企业的重任。

       随着人工智能的迅猛发展,语音交互技术也取得了巨大的进步,如果说,苹果的Siri是语音交互的启蒙者,那么亚马逊的Echo更像是前驱者,并且打响了语音交互技术落地应用的第一枪,它就像我们熟悉的“特洛伊木马”,十分神奇地控制着我们家庭里的灯光、窗帘、门锁等智能设备。可以说,亚马逊Echo的出现,拉开了国内外企业争抢智能语音市场的重大战役。

  语音控制无疑是继键盘、鼠标和触摸屏之后主流的智能家居交互方式,这早已成为业界共识,国内企业如科大讯飞、云知声、百度、齐悟、思必驰等AI企业都在竞相争抢语音市场赛道,根据中投顾问发布的预测报告显示,中国智能语音市场整体已经处于启动期,智能车载,智能家居,智能可穿戴等垂直领域正处于爆发前夜。

  虽然,语音交互技术正在日益走向成熟,但是,目前来讲,终端用户还不是十分认可,甚至对它各种调戏。归根到底,技术的终级价值都要体现在实际应用中,如何让语音交互技术有效落地,为商业社会创造真正的价值,早已成为AI企业的重任,a&s智慧生活有幸诚邀到云知声创新事业部总裁陈吉胜,和我们分享如何应对目前语音交互的技术挑战以及落地商业模式的思考点?

云知声陈吉胜总裁.jpg

云知声创新事业部总裁陈吉胜

  以下是a&s智慧生活与云知声创新事业部总裁陈吉胜的对话实录

       (Q:a&s智慧生活;A:云知声创新事业部总裁陈吉胜)

  Q:可以先请您简单介绍下贵公司的核心技术和应用方案吗?

  A:我们名字叫“云知声”,其实很容易让人家误解我们只有语音识别,其实云知声具有全栈式基础技术能力,主要包括三大块:1.基础技术,具有自己的超算平台,可以不断基于超算平台上的数据进行技术演进。这些演进的技术就包括各类大家熟悉的ASR(语音识别),DSP(降噪算法),VPR(声纹技术),NLU(自然语言处理),TTS(语音合成),NMT(翻译)等;其中,NMT团队成立不到9个月,第一次参加WMT大赛,与阿里、腾讯、facebook在美国很多知名大学同场竞技,取得了中翻英第三名的成绩。

  2.应用方案,云知声面向物联网提供了“云端芯”整体方案,我们的芯片团队和算法团队共同打造了面向物联网的AI芯——UniOne。这款具有自有IP的芯片,满足物联网对于高效低功耗芯片的需求,并且集成了DSP、ASR、TTS等边缘计算能力,完全满足当前物联网垂直领域的语音交互需求;

  3.在AI芯UniOne之上,我们提供完整的语音交互方案,刚才您的问题里面谈到目前语音方案达到什么水平?可以说在垂直领域,语音交互已经完全满足实用。

  Q:据有业界人士称,语音识别只是人工智能最初级阶段,语义理解才是机器人的大脑,但是,目前市场上的智能机器人还仅停留在语音识别的技术水平,被称为人工智障,与用户想象中的AI差异很大,因此经常被用户挑戏,您同意这种看法吗?

  A:是的,同意,语音识别和图像识别只是“感知”技术,在这方面,机器人早已经超过人类了,机器人比人差的是“认知”,也就是自然语言理解,或者叫语义理解。

  不过,所有的机器人都是语音识别结合语义理解,否则用户说的任何话它都只会听写,而不会给出回应。只是语义理解实在太难,而且,垂直领域意味着是有边界的,超出边界,设备很难做出正确的回应。人和机器交流的时候,不会只是在特定垂直领域里面,很有可能是通用的,这样机器人就无法理解了,所以说,我前面所讲的语音交互技术在垂直领域完全满足实用,是有以下两个前提条件的:

  1.垂直领域,比如家居、车载,对话必须限定在这些领域里面相关的内容,比如一台音箱,它主要支持的skill(领域)包括音乐、新闻、天气等,这个时候一定要问它从上海到北京的机票最便宜的是哪一班,它就不行了。除非它也加了这块领域和对应的内容/服务。

  2.需要用户配合,大家主要是为了完成一个任务,真人随意地下达相关要求,而设备做出正确地回应。比如如果想听歌,那就是“我想听刘德华的歌”这样类似的说法,但是如果人一定要挑战设备,比如说“我想过过过儿过过的日子是什么意思”,这样设备可能也就无法准确理解并做出回答了。但是,如果用户配合,机器人大部分还是会给出正确回应的。

  Q:有业内人士称,去屏化和情感化是语音交互技术的未来趋势,您认为未来语音交互技术的发展方向是什么?

  A:我不认为去屏化是趋势,不过,情感化是趋势,我比较认可。

  去屏化实际上是语音交互为中心的思想,但是实际上人和人,或人与物的交互都是既有听觉,又有视觉的,所以有屏无屏都有其应用场景,无论发展到何种阶段,都是共存的。

  但是语音的情感化,肯定是需要的,没有人愿意与冷冰冰的机器交流的,有温度的AI才是好的AI。

  Q:但是,据我们目前所知,机器人还远远达不到这种情感化人机交互的程度,您认为情感化的语音交互技术,何时能实现?

  A:是的,目前市场上出现的机器人离情感化交互相差甚远,原因就包括我刚列举的原因,所以,这个还需要比较长的时间,首先是语音合成需要带情感,而语音合成什么文字带什么情感,又牵涉到语义理解,而语义理解是最复杂的技术,或者说是人工智能技术领域的皇冠。

  Q:可以谈下云知声为企业提供的语音技术服务的形式是什么吗?以及选择的切入点是什么?

  A:我们主要从智慧生活和智慧服务两个方面入手。

  针对智慧生活领域 ,我们提供云端芯软硬件一体化的解决方案,客户包括格力、美的、长虹等白电厂商,另外,还包括国内的音箱厂商和机器人厂商,以及前装车厂和后装方案商的客户。他们可以用我们提供的模组、芯片与自己的主板做对接;

  智慧服务是为行业标杆客户提供AI能力支撑,包括平安集团、京东、协和医院、台州医院等大客户,为他们提供包括软件、私有云部署等多种服务。

  我们的思考点:AI最终的商业化是要找到相应的落地场景,在智慧生活的家居和车载场景,非常适合使用语音相关技术;在智慧服务,主要是采用AI有效地帮到客户提升效率,找到相应地价值点。

  Q:与其他语音交互技术提供商相比,云知声的核心竞争力在哪里?

  A:主要有三点:1.技术全栈化,而且每一块都是国内顶尖水平;2. 工程能力强,做出自有AI芯片就是最好地例证,可以为我们的客户提供最优的整体解决方案;3.服务意识强,与云知声合作的客户都非常满意我们的产品质量和服务水平,这也是我们为何有很多大型标杆公司都愿意选择和云知声合作的原因。

  Q:云知声前段时间发布了AI芯片,其落地的商业模式是什么?有哪些市场发展机会?在落地时遇到哪些阻碍,公司如何应对?

  A:我们发布的AI芯片是第一代,其商业模式:1. 已有的业务,比如格力、美的、长虹等已经出货的IVM模组的替代,售价大为降低(原来的三分之一左右),性能还有稳步提升,从而带来出货量几个数量级的增长;2.我们提供芯片上面的整体语音交互解决方案,并且开源。通过这样,我们团结一大批合作伙伴来共同推进我们的芯片,为客户提供Turnkey的解决方案。

  目前来讲,还没有遇到阻碍。

  Q:云知声已有客户及合作伙伴对该AI芯片有无其他的顾虑?比如产品出货后终端用户是否接受?

  A:首先,已合作客户对于云知声模组方案非常信任,已经大量出货,他们知道道云知声出货的标准要求;同时客户也会对云知声芯片做大量测试,而由于我们之前有相关模组出货经验,所以很多测试我们自己已经做过了,非常有把握。

  Q:有权威机构表示,实验室中测试语音识别率为98%,甚至可达99%,完全可以满足用户的需求,但是,走出实验室,走入实际的业务应用场景时,却又相差很大,也因此普遍遭到用户的吐槽,您如何看?

  A:这是因为应用场景选择的问题;也是因为实际使用的时候,用户不一定限定在垂直领域,我们强调落地的场景,所以还是做垂直领域。

  Q:对于智能家居应用场景来讲,您认为语音交互是目前最理想的人机交互方式吗?未来智能家居控制会如何变化?未来有没有杀手级的应用?

  A:我认为未来的发展一定是多模态的,语音很重要,但是就像一个正常的人,既会说话,也会用眼睛看,所以说,语音交互非常适合家居应用,但是必须结合更多的感知技术、图像、体感,在合适的场景下,会形成多模态的需求。

  语音市场当前已经处于快速发展阶段了,之前阿里巴巴对外宣布天猫精灵卖了300万台,这个主要是语音交互;未来的多模态需求,将会进一步刺激多模态控制出来,我认为这个不会很晚,也就2-3年的时间而已。

  Q:目前语音交互技术还存在什么挑战吗?

  A:语义理解,这个是AI的皇冠!

  Q:这个技术难点会成为语音爆发的阻碍吗?因为我们知道这个对于用户的体验很重要。

  A:不会,它只是个技术挑战,而技术挑战完全可以通过产品设计规避掉的。

  Q:可以具体谈下如何通过产品设计来规避吗?

  A:适合的场景,切合实际需求的产品设计,结合适用的技术,是杀手级应用或者爆发的关键,举个很简单的例子,对于电视语音应用,就在找节目的时候多用,不要要求它上知天文下知地理。

  再以儿童陪伴型机器人举例,我们认为这是我们重点突破的方向,因为家长和孩子都有需求,当无法理解孩子的意图时,完全可以提出我们一起来做成语接龙的游戏吧,这样,既启发了孩子学习的兴趣,又规避了无法理解的尴尬。同时我们也做了针对儿童声音特点的语音识别引擎改进,做到了较高的识别率,这就是技术、产品和应用场景结合的一个典型案例。

  Q:去年,Yann Lecun在Twitter的一篇评论文章里表示,机器学习即服务在实践中令人失望,AI公司容易陷入技术傲慢里而轻视用户需求与公司经济学,您同意此观点?

  A:我同意,不过我们不是那样的AI公司,我们认为AI要实际商业化,必须找好行业,找好应用场景,为AI而AI,是适得其反的,因为光有技术,没有用处的,这也是为何我在列举我们的优势的时候,技术排在第一,但只是三分之一。

  另外,我想说的是,智能家居实际上是个碎片化的市场,针对碎片化的市场,需要有非常高效的产品解决策略,否则会陷入到项目制,每个项目都需要有相应的支出,最后公司入不敷出。这也是我们云知声为何做AI芯片+云平台这个整体解决方案的初衷

  Q:云知声推出的AI芯片+云平台方案战略,可以为企业节省支出吗?

  A:我们提供芯片,并开源代码,发动合作伙伴一起做,而且提供云服务,当然可以大大降低成本。

  Q:自已研发芯片和云平台,成本会不会很高?

  A:高,但是必须要这么做,不然就是等死。另外,云知声2017年主要专注在开发芯片技术;今年就是开展业务,继续开发新一代芯片。

  编辑总结:毋庸置疑,作为目前最重要的人机交互方式,语音控制正在走进千家万户,据权威机构预测,到2021年,基于人工智能的语音控制技术有望渗透到4000万家庭。不过,相较于已经相当成熟的语音识别,语义理解才是语音交互技术的重中之重,相当于机器人的大脑和思维,对于用户体验具有重要的意义,不过,在垂直领域意味着边界,机器人无法满足用户天马行空的指令,或越界的语音指令,在某种程度上大大降低了语音交互的智能化水平。

  因此,笔者认为,在摘得语义理解这顶“AI皇冠”之前,AI企业需要跳出技术的傲慢与偏见,以用户的实际需求为思考点,将技术、产品和具体的实际业务场景紧密结合起来,尽最大程度地规避语音交互在垂直领域的边界缺陷,尽最大可能使语音交互产品和系统满足用户的基本需求,否则,将会严重伤害用户对语音交互的信任度,从而大大阻碍语音市场的健康快速发展。


0
[责任编辑:张秋华]

作者:黄文凤文章数:246
a&s传媒INTEGRATOR执行副主编,主要专注于消费电子、工业电子、医疗电子、电源/新能源和物联网 、人工智能、大数据、云计算等前沿技术资讯,及这些技术在智慧城市垂直行业的创新应用。

安全自动化 官方微信    as视界 服务号

不得转载声明: 凡文章来源标明“安防知识网”的文章著作权均为本站所有,禁止转载,除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。

专栏
我要投稿
文章排行榜
杂志
  • 安全&自动化2023年9-10月 第261期
    2023年11月第261期
    2022-2023年,全球经济前景的“不确定性”正在对安防与其他行业产生着重大的影响,通货膨胀、供应链挑战、地缘政治冲突、全球劳动力市场结构变化……不稳定的经济环境在很大程度上给全球安防行业的发展带来了极大的阻力。2022年国内安防市场保持着增长,但增速放缓,2023年国内宏观经济呈现复苏态势,市场需求有所回暖,但由于国内政府财政收支减少、部分项目进展缓慢、房地产市场下滑、企业端市场投资信心减弱等因素,给安防企业带来持续挑战。