人工智能技术在声纹识别方面的应用 | 解读技术

声纹识别(Voiceprint Recognition,VPR)也称说话人识别,是一种通过声音判别说话人身份的技术,分为说话人辨识和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,即“ N 选一”;后者用以确认某段语音是否是指定的某人所说,是“1对1匹配”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需用到确认技术。

金沙澳门官方网站 1

金沙澳门官方网站 2

        人工智能技术对于传统产业的推进作用越来越凸显,极大提升了传统产品的商业价值。“听声识我,开口即播”长虹CHiQ5人工智能电视成为全球首款搭载声纹识别的人工智能电视,可以直接通过每个人说话的声音不同而区分目前使用电视用户是谁,从而实现内容的精准推荐。无需借助遥控和手机等智能设备,通过识别家庭成员的声纹来控制电视。语音助手配备海量语音库,使用语义模糊识别功能,即使说错片名也能自动识别出你想要的内容,但是当人们在观看某一节目的时候谈论提及其他电视节目名称,语音助手功能识别后当即转换到另一个节目影响正常节目的观看。但是在价格方面,55寸售价7597元,65寸售价13997元,75寸售价21997元,价格过高难以普及,但是也从侧面证明人工智能确实可以提升产品附加值。

云知声声纹技术负责人指出,虽然声纹识别优势明显,但是要想准确分辨声音特征却并非易事。首先,声纹识别系统性能会受用户发声状态影响,如用户的身体状况、情绪等都会影响识别准确度。其次,环境的嘈杂度,以及采集、传输音频的硬件配置,都会在不同程度上对识别系统造成干扰。

金沙澳门官方网站 3

中新网1月21日电 日前,语音 AI 领军企业云知声宣布,其与中国领先的一站式医疗健康生态平台平安好医生共同研发的“声纹登录系统”经过多次模型优化和升级迭代后,登录成功率接近 99%,达行业一流水准。

金沙澳门官方网站 4

近年来,伴随深度学习的兴起,云知声在国内率先将这一技术使用到语音识别中,且后续引入到声纹识别领域,解决了一系列声纹技术实用难点,并应用到实际产品上。此次,云知声和平安好医生联手打造的平安好医生客户端用户声纹登录系统便是其中一项成功案例。

金沙澳门官方网站 5

云知声声纹技术负责人表示,作为国内为数不多具备全栈语音技术能力的人工智能公司,云知声已在声纹技术领域深耕多年。团队多位技术骨干曾在美国国家标准技术署主办的说话人识别技术评测中多次屡次斩获第一名,且早在 2004 年,尚就职于摩托罗拉公司的云知声公司创始人黄伟博士便带领团队研发出世界上第一款手机声纹认证系统,搭载该系统的相关产品总计销量超 2 亿台。

        对于声纹识别系统而言,如果从用户所说语音内容的角度出发,则可以分为内容相关和内容无关两大类技术。顾名思义,“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容,而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以,由于内容大致类似,只需要考虑声音本身的差异,难度相对较小;而后者由于不限定内容,识别系统不仅需要考虑用户声音之间的特定差异,还需要处理内容不同而引起的语音差异,难度较大。

为解决上述难点,云知声声纹技术团队进行了一系列技术攻坚与创新。首先,依托云知声强大的语音信号前端处理技术,如 VAD、语音降噪等,准确地捕捉到人声并进行背景噪声消除;其次,云知声将 DNN 引入到传统声纹识别 ivector 技术框架中,并融合最新端到端声纹识别技术,基于云知声超算平台和海量声纹训练数据,使得模型得以学习到数万说话人,每人多种发声的特性,且在云端针对每个用户采用说话人自适应技术,达到越用越好的效果;在信道处理上,采用 PLDA 信道补偿技术,可将信道影响降到最小。

        具体到声纹识别算法的技术细节,在特征层面,经典的梅尔倒谱系数MFCC,感知线性预测系数PLP、深度特征Deep Feature、以及能量规整谱系数PNCC 等,都可以作为优秀的声学特征用于模型学习的输入,但使用最多的还是MFCC特征,也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面,目前还是N.Dehak在2009年提出的iVector框架一统天下,虽然在深度学习大红大紫的今天,声纹领域也难免被影响,在传统的UBM-iVector框架下衍化出了DNN-iVector,也仅仅是使用DNN(或者BN)提取特征代替MFCC或者作为MFCC的补充,后端学习框架依然是iVector。

金沙澳门官方网站,在同一账号下,云知声声纹识别产品可支持 6 人注册。在客户端,云知声提供封装好的 SDK,支持声纹注册、登录、解绑等接口,供上层调用 API 实现产品逻辑。同时,云知声还提供成熟的声纹服务私有化部署方案,基于在金融、客服、快递等不同行业丰富的私有云部署经验,可有效保障客户数据安全。

        现实生活中的“未见其人,先闻其声”就是人类通过声音去识别另一个人身份的真实描述,虽然目前计算机还做不到通过一个字就判断出人的身份,但是利用大量的训练语音数据,可以学出一个“智商”还不错的“声纹”大脑,它在你说出8-10个字的情况下可以判断出是不是你在说话,或者在你说1分钟以上的话后,就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念:1:1 和 1:N,同时也包含了只有在声纹识别技术中存在的独特的概念:内容相关和内容无关。

据悉,为保障用户登陆的“安全性”,云知声为平安好医生客户端声纹登录系统提供数字串注册和登录的“文本弱相关”技术,工程难度更高,安全性更强。与传统固定口令登录方式不同,该系统采用随机数字串登录方式,即在用户进行登录时,系统会随机下发 8 位随机数字串,可有效规避录音攻击等安全问题。


公开信息显示,在移动医疗领域,云知声与平安好医生有长期合作。2017 年 12 月,双方合资成立上海澔医智能科技有限公司,共同探索以智能语音识别等技术为基础的家庭智慧医疗服务终端建设。

       在实际应用中,声纹识别也存在一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。

        对于一个生物识别系统而言,如果它的工作模式是需要你提供自己的身份(账号)以及生物特征,然后跟之前保存好的你本人的生物特征进行比对,确认两者是否一致(即你是不是你),那么它是一个1:1的识别系统(也可以叫说话人确认,Speaker Verification);如果它只需要你提供生物特征,然后从后台多条生物特征记录中搜寻出哪个是你(即你是谁),或者哪个都不是你,那么它是一个1:N的识别系统(也可以叫辨认,Speaker Identification)。

本文由金沙澳门官方网站发布于财经资讯,转载请注明出处:人工智能技术在声纹识别方面的应用 | 解读技术

相关阅读