SpeakIn:我们为什么需要声纹识别?

2018-09-03 10:46:48作者:小玩/SpeakIn来源: a&s智慧生活

[摘要] 进出小区要刷门禁卡,住宿出行要掏身份证,订立合同要签字盖章,转账消费要输入密码,就连电视剧中“紫薇去认皇阿玛,也得拿着一画一扇当信物”……

       文/小玩 SpeakIn

  进出小区要刷门禁卡,住宿出行要掏身份证,订立合同要签字盖章,转账消费要输入密码,就连电视剧中“紫薇去认皇阿玛,也得拿着一画一扇当信物”……

  在与人类社会产生关联的过程中,我们无时无刻不需要证明自己的身份,以获得某种权限,为此我们发明了令牌、印章、证件、密码作为身份符号。但和这些传统方法相比,DNA、指纹、虹膜、人脸、声纹等生物特征才是你唯一的、稳定的、无法盗取也不会丢失的ID。这些生物信息ID和传统身份符号相比,有诸多优势,比如:

  独一无二——专属

  随身携带——方便

  难以复制——安全

  也正因此,人类社会在从符号ID到生物ID的路上一直在默默前行。DNA检验在医疗、司法领域的应用大家早已熟知;指纹识别在考勤、门锁、手机上也已经普及;人脸识别近几年在支付、安防、金融等领域颇有建树。生物识别方式如此众多,我们为什么还需要声纹识别?

20180111552_70342962_xxl.jpg

  加上声纹识别这点料,语音交互才算真智能

  国内的智能音箱更新的一代又一代,功能越来越全,价格却越来越低,智能音箱市场俨然已进入竞争白热化阶段。根据市场分析公司Canalys预测,到2018年底智能音箱全球出货量将达到5630万台。

  毫无疑问,语音交互日趋成为人机交互的重要入口。语言自带指令属性,是人类最自然、最日常的沟通方式。从通过按键、触控与机器交互过渡到语音人机交互,无疑是一大飞跃。但仅能识别指令内容是不够的,真正的智能交互产生的基础是机器能识别、区分人的身份,能像朋友一样根据你的身份鉴别权限和提供个性化服务,否则语音交互就只是高配版遥控器,本质还是单向的命令输出工具——要实现真正智能的交互就需要加上声纹识别这点料。

  举个例子,智能音箱爱好者估计都遇到过类似的麻烦:音箱放在客厅,电视响起,偶然播出唤醒词,音箱分辨不出这并非你的指令,于是乖巧地做出反应……类似的,在实际的车载场景中,智能后视镜也很容易被乘客无意的聊天或广播中偶然出现的唤醒词唤醒。只能识别口令,无法区分说话人的身份,不会判断什么人的话该听,什么人的话不该听,让本属于你的东西缺乏权限管控,更不能提供个性化服务,是目前市面上许多智能语音交互产品的通病,而病因则在于,缺了通过声纹识别技术辨别说话人这剂良方。

  真正智能的人机交互,应该在你唤醒的同时,就能通过声纹识别技术知道你是你,并针对性地对口令做出反应。比如,智能后视镜能对广播中的唤醒词充耳不闻,只听你的口令;智能音箱除了能只被家里特定成员唤醒外,还能根据不同家庭成员的习惯和喜好进行个性化推荐,早上给爸爸播新闻,晚上给妈妈放爵士,周末给宝宝放儿歌,闲时给爷爷奶奶播戏曲,让所有人只需一句口令,就能听到最合适的推荐,有如量身定制一般。

  隐蔽+随机+算法守卫,让声纹比安全更安全

  既然是作为像身份证一样,用来证明身份的ID,声纹的安全性就不得不考量。比如,如果声音被不法分子盗录,岂不等于永久性地丢了通往世界的钥匙,还不能换锁?

  首先,相对于人脸、步态等时刻暴露在外的生物特征,声纹具有隐蔽性。比如,从公司到家这一路,你不知道会经过多少摄像头,人脸信息被录入了几次,但最起码你还可以选择不说话。

  即使不法分子费尽心机盗录了你的声音,那也不怕。就像人脸识别会通过摇头、眨眼等动作证明你是真人而非照片、模具一样,声纹识别可以通过随机改变口令内容来进行检测。想想,数字、长句、英文,所有语言随机组合,验证方式可比简单的摇头、眨眼丰富多了。即使犯罪分子提前盗录了你的声音信息,面对随机的、临时的验证口令,也毫无用处。

  除此之外,还有算法守卫。

  正常的声纹识别流程是:人说话→声纹系统检测到声音并进行识别;

  录音攻击的声纹识别流程是:人说话→盗录→播放→声纹系统检测到声音并进行识别。

  在这个过程中,录音会把人说话的声音信号转换成电信号保存,这个编码的过程会导致部分声纹特征损失;播放又会将保存的电信号转化为声音信号,这个过程也会导致部分声纹特征的损失,再加上不同播放器材频率响应特征的影响,此时播放出来的声音和你本身说话的声音已经不是同一个声音。两者声纹特征的微妙差异人耳难以听辨,但经过深度学习的机器却能准确识别,让你失声不“失身”。

  生来要说话,且我们需要更人性化的人机交互

  为了与世界交互,我们创造了许多操作,比如设置账号密码和敲击键盘……虽然久经演练的我们早已习惯,但不得不承认这些操作是违反人类习惯的,账号密码容易忘,键盘敲久了手会疼就是明证。对于另外一些群体,比如老年人、身体有残疾的人或缺乏受教育机会的人,这些违反人类习惯、需要后天学习和大量演练的操作,就是他们通往世界的阻碍。

  我们天然需要更自然、更简单、更人性的交互方式,而声纹的优势在于,不区分年龄、学历和生活习惯,我们生来要说话——我们需要声纹来解决许多困扰我们已久的事情,照顾更多被忽略已久的群体。

  我们可以想象这些场景:

webwxgetmsgimg.jpg

  从此无需带钥匙,也不会出现把自己反锁在门外,一句“芝麻开门”就能证明你是这房子的主人;

  从此也不用记密码,不论是简单的手绘图案还是字母数字下划线这种反人类的组合,统统变成“过去”的事情;

  对于有视力障碍的老人和盲人,不用害怕看不清屏幕或找不到摄像头的位置,对着空气说句话事儿就办成了,和让家人给自己端杯水一样简单;

  无需动身,坐在原地对着麦克风说句话就识别身份,让老年人足不出户,在家一个电话就能领取社保,让奔波的年轻人歇歇脚,远程异地办理各种业务,岂不比需要站在特定位置刷证件、按指纹方便得多?

webwxgetmsgimg (1).jpg

  我们生来要说话,如果能让声音成为我们不变的、随身携带的、不会忘记的、难以被窃取的ID,那么在通往世界的路上,所有需要证明你是你的场景,都变成了“一句话的事儿”。

  AI的发展得益于算力、算法和大数据的进步。作为全球领先的声纹识别和身份安全解决方案人工智能公司,SpeakIn自信地告诉大家,说话作为人类最高频的交互方式,语音数据沉淀潜力无限;随着算法升级,深入场景,未来声纹识别会让生活更智能、更安全、更人性。


0
[责任编辑:黄文凤]

安全自动化 官方微信    as视界 服务号

不得转载声明: 凡文章来源标明“安防知识网”的文章著作权均为本站所有,禁止转载,除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。

专栏
我要投稿
文章排行榜
杂志
  • 安全&自动化2023年9-10月 第261期
    2023年11月第261期
    2022-2023年,全球经济前景的“不确定性”正在对安防与其他行业产生着重大的影响,通货膨胀、供应链挑战、地缘政治冲突、全球劳动力市场结构变化……不稳定的经济环境在很大程度上给全球安防行业的发展带来了极大的阻力。2022年国内安防市场保持着增长,但增速放缓,2023年国内宏观经济呈现复苏态势,市场需求有所回暖,但由于国内政府财政收支减少、部分项目进展缓慢、房地产市场下滑、企业端市场投资信心减弱等因素,给安防企业带来持续挑战。