声纹识别：走出实验室，或将迎来历史上最佳的应用发展期

酷飞 · 发表于 2022-7-2 21:57:35

人们通过听觉来判断说话人的身份，古已有之，正所谓“闻声知人”。对计算机来说，这种能力就是声纹识别，又称说话人识别，它基于语音中所包含的说话人特有的个性信息，自动鉴别当前语音对应的说话人身份，是一种简单、优雅、安全的生物特征识别技术。经过半个多世纪的探索实践，声纹识别技术已逐渐走向成熟，迎来了历史上最佳的应用发展时期。

声纹是一种行为特征

所谓声纹，就是对语音中所蕴含的、能表征和标识说话人的语音特征，以及基于这些特征（参数）所建立的语音模型的总称。与指纹的唯一性类似，每个人在说话过程中所蕴含的个性特征（如发音习惯）几乎是独一无二的，就算被模仿，也改变不了说话者最本质的特性。尤其在成年之后，可以在相当长的时间里保持相对稳定不变。

声纹是一种行为特征，由于每个人在讲话时使用的发声器官如舌头、牙齿、口腔、声带、肺、鼻腔等在尺寸和形态方面有所差异，以及年龄、性格、语言习惯等多种原因，在发音时千姿百态，因而导致这些器官发出的声音必然有着各自的特点。可以说，任何两个人的声纹图谱都不尽相同。

声纹特征以声音为载体，具有以下特点：

交互性。声音是唯一可双向传递信号的生物特征，既可以接收信息，也可以发出信息，实现交互。

便捷性。声音是唯一周边无死角的生物特征，可以实现非接触式采集，方便使用。

变化性。声音是高可变性与唯一性的完美统一。没有两个声音是完全一样的，但里面所蕴含的信息，比如你是谁、你的年龄、你的情感等信息却都是唯一确定的。这种高可变性和唯一性的完美统一使得语音信号自身就具备了很强的防攻击能力。

丰富性。声音有“形简意丰”的特点，它虽然只是一个一维信号，但是蕴含着丰富的信息。在相同一段语音中，除了包含说话人信息外，还包含内容、语种、性别、情绪、年龄，甚至包含出生地、身体健康状况等丰富的信息。

作为一种身份认证手段，声纹还具有如下优势：

不怕丢失。不同于指纹、虹膜、人脸等静态的生理特征，声纹作为一种动态的行为特征，不容易丢失，可以做到“失声（音）不失身（份）”。

难以伪造。声纹蕴含于人的语音当中，而语音是千变万化的。即便人两次读相同的内容，也不可能发出完全相同的声音。正是声纹这种“蕴不变于千变万化之中”的特性，使得声纹特征更加深层、难以琢磨，伪造起来也更为困难，因而认证强度更高、更安全。

隐私性弱。俗话说“身体发肤受之父母”，在一般的大众认知中，人们在很多场合下往往不愿意被拍照或者按手印，但采集一段随机跟读的声音，对于大众更加容易接受。

由于声纹具有以上特点，声纹识别技术可广泛应用于各种场景。尤其在光线或隐私等受约束的特定场景中，声纹比其他方法更加方便自然，成为首选甚至唯一的选择。

声纹技术的分类逻辑

声纹识别技术是一个统称，实际上，按照不同的应用方式和其他的一些限定，声纹识别又被分成了多个技术类别。其中，按照实际应用的方式可分为三类：

声纹确认，即给定一个说话人的声纹模型和一段只含一名说话人的语音，判断该段语音是否是该说话人所说。

声纹辨认，即给定一组候选说话人的声纹模型和一段语音，判断该段语音是哪个说话人所说。

声纹检出和追踪，即给定一个说话人的声纹模型和一些语音，判断目标说话人是否在给定的语音中出现。如果目标说话人在语音中出现，则标示出对话语音中目标说话人所说的语音段的位置。

正因为声纹是一种动态的行为特征，在上述普遍适用于各种生物特征识别技术的分类之外，声纹识别还多了一个技术维度——它的分类与说话的内容有关。

根据声纹识别与待识别语音的文本内容的关系，声纹识别又可分为三类：

文本无关，即对于语音文本内容无任何要求，说话人的发音内容不会被预先限定，说话人只需要随意录制达到一定长度的语音即可。这种方法使用起来更加方便灵活，具有更好的推广性和适应性。

文本相关，即要求用户必须按照事先指定的文本内容进行发音。由于文本相关场景下，语音内容受到限定，整体随机性比文本无关场景下的小，所以一般来说其系统性能也会相对好很多。

文本提示，即从说话人的训练文本库中，随机提取若干词汇组合后提示用户发音。既对语音内容的发音范围进行了限定，又通过随机组合的方式，保留了语音内容的随机性，是文本无关与文本相关的一种结合。这种方式能一定程度上避免文本相关时的假冒录音闯入问题，同时具有较高的系统性能，且实现方便，是说话人识别技术的一大热点。

不同类别的声纹识别技术之间，其采用的算法也会有细微的不同，对应的应用领域也会有所不同。无论是哪种声纹识别技术，都经过了漫长的发展过程。

从算法到工程的进化

人工分析阶段

以语音作为身份认证的手段，最早可追溯到 17 世纪 60 年代英国查尔斯一世之死的案件审判中。对说话人识别的研究始于 20 世纪 30 年代。自 1937 年的 C. A. Lindbergh 儿子被拐骗事件开始，人们针对语音中的说话人信息开展了科学的探索和研究。1945 年，Bell 实验室的 L. G. Kersta 等人借助肉眼观察，完成语谱图匹配，并首次提出了“声纹（Voiceprint）”的概念；且在 1962 年第一次介绍了采用此方法进行说话人识别的可能性。1966 年，美国法院的第一次采用“声纹”进行了取证。随着研究手段和计算机技术的不断进步，说话人识别逐步由单纯的人耳听辨，转向基于计算机的自动识别。

基于专家知识设计的特征与模版匹配方法阶段

在传统的模式识别方法中，算法的关键一般分为两个部分：特征和模型。想要准确的完成自动说话人识别，不仅需要区分性强的特征，也需要更精准和鲁棒的模型。

一在特征方面：1969 年 JE Luck 首先将倒谱技术用于说话人的识别，得到了较好的效果。BS Atal 将线性预测倒谱系数 LPCC 用于说话人识别，提高了特征参数的区分精度。此后，研究者相继提出了 LPC 谱系数、 LSP 谱系数、感知线性预测系数 PLP、梅尔倒谱系数 MFCC 等说话人特征。

二在模型方面： Bell 实验室的 S. Pruzanshy 提出的基于模板匹配和统计方差分析的说话人识别方法，引起信号处理领域许多学者的注意，一时间成为该领域的主流算法。后来，相继有学者提出动态时间规整 DTW、隐马尔可夫模型 HMM 等技术，也成为说话人识别的核心技术。

基于混合高斯的识别模型阶段

20 世纪 90 年代以后，尤其是 D. Reynolds 对高斯混合模型GMM做了详细介绍后， GMM 以其简单、灵活、有效以及较好的鲁棒性，迅速成了目前与文本无关的说话人识别的主流技术，将说话人识别研究带入一个新的阶段。 2000 年，D. Reynolds 在说话人确认任务中提出了高斯混合模型-通用背景模型 GMM-UBM结构，为说话人识别从实验室走向实用作出了重要贡献。进入 21 世纪，在传统GMM-UBM 的方法上， P. Kenny、 N. Dehak 等人先后提出了联合因子分析JFA 和 i-vector 模型，将说话人模型映射到低维子空间中，克服了 GMM-UBM系统中高斯分量互相独立的局限性，提高了系统性能。之后，有研究者提出将概率线性判别分析 PLDA 方法对 i-vector 进行建模，进一步提高了系统的精度。

基于数据驱动的深度特征学习与端到端学习阶段

近年来，随着深度机器学习在语音识别、图像处理等领域的快速发展和成功应用，基于深度学习的相关方法也逐渐应用到说话人识别中，并取得了不俗的成效。Georg Heigold 等人提出了端到端的声纹确认方法，其取网络最后一层隐藏层的激活作为说话人表征，使用余弦距离判断两个表征向量是否为同一个说话人。Mirco Ravanelli 等人提出 SincNet 架构，以 sinc 函数限定网络第一层卷积结构，让网络学习滤波器的截止频率，实现从原始语音信号直接学习，完成声纹识别任务。 Johan Rohdin 等人则模仿当前主流模型 i-vector-PLDA 模型的工作流，使用深度神经网络 DNN 实现工作流的每个部件，得到了不错的效果。

聚焦鲁棒性问题的工程化实用化技术解决阶段

随着声纹识别技术逐渐成熟、趋于实用，与声纹识别相关的鲁棒性、安全性问题，也受到了研究和开发人员的关注，包括噪声、跨信道、多说话人、身体条件变化、说话方式变化、短语音等鲁棒性问题。 2000 ～ 2010 年代，清华大学语音和语言中心对由于声纹随说话人年龄变化而发生变化从而导致系统识别性能下降的声纹时变问题进行了研究，提出了时变鲁棒的声纹特征；对使用录音和录音拼接攻击声纹识别系统这一安全问题进行了研究，并提出了切实可行的录音检测方法。

场景驱动下的商用浪潮

走出实验室的声纹识别技术因其广阔的应用场景和价值，从特定领域到民用领域，在国内外正迎来第一波商用化浪潮。

声纹辨认技术，为国家和公共安全服务

随着固定电话和移动通讯网络的发展，声纹辨认技术首先在针对特定人群的国防安全、公安技侦、司法矫正等领域投入使用，有力保障了国家和公共安全。例如在战场环境下，声纹辨认技术可察觉电话交谈过程中是否有关键说话人出现，一旦通过电话发出军事指令时，便可对发出命令者进行身份辨认（敌我指战员鉴别）。据报道，2001 年 4 月 1 日迫降在我国海南机场的美军 EP-3 侦察机就载有类似的声纹识别侦听模块。在反恐作战中，恐怖分子在作案前后的通讯中往往会包含关键内容，因此，在通信系统或安全监测系统中预先安装声纹辨认系统，可通过通讯跟踪和声纹辨别技术对罪犯进行预防和侦查追捕。据悉，拉登的落网正是美国情报部门充分利用了声纹鉴别技术。此外，声纹辨认技术还用于对满刑释放的犯罪嫌疑人进行监听和跟踪，可有效阻止犯罪嫌疑人再次犯科；针对通过电话勒索、绑架等刑事犯罪案件，公安司法人员也可利用声纹辨认技术，从通话语音中锁定嫌疑犯人、缩小刑侦范围。

声纹确认技术，为泛金融身份认证保驾护航

随着网上支付、手机支付等成为现代人购物付款的主流方式，网络支付的身份认证开始愈发重要。为防止盗刷等案件发生，将声纹确认技术加入到交易支付中，通过动态声纹密码的方式进行客户端身份认证，可有效提高个人资金和交易支付的安全。在国外，英国巴克莱银行、美国花旗银行、澳大利亚国家银行、万事达卡机构等都已开始引入声纹技术。在我国， 2016到2018年间，中国建设银行、贵阳银行、兰州银行、西安银行、中国银联、中国互金协会等多家单位与北京得意音通公司合作，由后者为其提供声纹识别身份认证服务，用于账户登录、大额转账、无卡取款、密码找回等业务场景。微信和支付宝也已上线基于声纹动态口令的登录方式。

此外，在信贷业务中引入声纹识别技术作为反欺诈手段，还可有效降低冒用他人身份进行骗贷以及多头贷款等事件的发生率。城乡养老保险是社会保障体系的重要组成部分，然而冒领养老金的事件时有发生，每年冒领总金额以亿元计，但若要求高龄老人亲临现场验明正身才能领取养老金，则会非常不便。由于声纹确认技术具有很强的远程操控属性，社保局通过预装声纹身份认证系统，可非常方便地对领养老金者开展远程身份认证，让“信息多跑路，群众少跑腿”。目前正在贵州省黔东南州开展的州一级试点，为当地各族群众提供了极大的便利。

声纹技术融合，迎个性化语音交互时代

随着语音技术的普及，越来越多的声纹识别应用场景还在不断涌现。如利用声纹确认技术，可完成个人日常生活中的各种事物访问控制的授权，比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等；利用声纹辨认技术，可支持智能音箱、智能语音助手等提供个性化服务，如针对家庭用户中的老年人、儿童等不同年龄段用户，按照兴趣推荐不同的歌曲、新闻，以及开放特定的功能权限等；利用声纹检出和追踪技术，可取代人工完成会议纪要，通过语音识别和声纹识别技术的结合，将会议录音通过语音识别技术识别说话内容、通过声纹识别技术标注每段话所对应的说话人，即可轻松完成多人会议记录，大大提高工作效率。需要注意的是，这些新兴需求大部分还处在探索阶段。

总的来说，随着技术的不断成熟和融合，声纹识别技术将逐渐融入人们的日常生活，根据不同应用场景的特点进行针对性开发，将产生巨大的应用价值。

后标准时代的趋势与挑战

为规范和正确引导声纹识别发展，国内已公布多项关于声纹识别的标准。2008年，原信息产业部正式颁布实施了《自动声纹识别（说话人识别）技术规范》，这是我国第一个关于声纹识别的行业标准。2010 年 12 月 2 日，公安部颁布实施了《安防声纹确认应用算法技术要求和测试方法》。2018年10月9日，中国人民银行正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准，这是第一个被金融监管部门认可的生物识别标准，为声纹识别技术进入移动金融领域解决了标准难题。

央行标准的颁布，为声纹识别技术进入移动金融领域解决了标准难题，金融科技一跃成为声纹识别时下最热门的应用领域之一，2018 年也因此成为声纹技术的应用“元年”。

从技术发展来看，声纹识别当前还存在以下几个挑战：

鲁棒性挑战。鲁棒性是指声纹识别抵抗其他因素干扰的能力。这些干扰可能来自说话人自身，比如说话人随着身体状况改变而发声的声音改变、随着年龄增长而发声的声音变化、不同情感、语气、语速情况下的声音变化。也可能来自说话人之外，比如噪声干扰、远场情况下收录到的声音发生的变化。如何在众多干扰之下，精准的对声纹进行识别，是一个重要的研究方向。

防攻击挑战。防攻击是指声纹识别系统拒绝非真实说话人的能力。这些尝试进入系统的声音，可能是由人类模仿发声的，也可能是机器伪造的，比如通过语音合成、声音转换以及录音重放技术，产生出和真实说话人相近的声音，尝试进入系统。如何阻止这些假冒语音通过系统，是一个重要的研究方向。

超短语音挑战。短语音是指系统的识别性能对语音长度的依赖性。较长的语音会达到更高的精准度，但显然，过长的语音会影响用户体验。并且在一些特定场景下，比如司法应用中，系统只能收集到有限长度的语音。因此，如何在较短语音长度的情况下，提高系统的识别性能，也是一个研究方向。

众多的挑战，预示着声纹识别的完善之路还很长。而相关标准的发布，标志着声纹识别正受到国内各界的认可，并吸引了越来越多的从业者进入此领域。然而技术发展自有其规律，热度之下仍需冷静，有序推进方为正道。相信在标准的正确引导和业界的共同努力下，拥有广阔应用场景的声纹识别未来定能在各个领域开花结果，走进更多普通人的生活。

声明：以上内容来源于网络，如有侵权请联系我们(123@shiyan.com)删除！

城市大秀场

声纹识别：走出实验室，或将迎来历史上最佳的应用发展期

相关帖子

发表回复