NLP业务应用系列(1)-声纹识别
声纹识别
原理
任何两个人的声纹图谱都有所差异,通过检测相同音素的声纹特征就可以判断出是否同一个人。
因此声纹也是作为生物识别的手段之一。其识别流程类似于人脸识别,输入经过模型处理后都会生成一个特征编码,我们通过比对特征编码的相似度来确定是否同一个人的概率;
特征编码提取流程
想要提取一段音频中的声纹特征,大致需要以下流程
1、语音检测(VAD):用于检测语音边界,毕竟一段音频中不可能都在说话,我们仅需要说话的片段
2、语音增强:日常生产的音频通常在嘈杂的环境中,通过增强技术降噪,提升语音质量
3、有效语音检测与提取:将符合要求的语音片段拿出来,否则需要重新录入
4、通过声学模型提取声纹特征编码
5、将特征编码应用到实际业务场景(比对)
关键指标
错误拒绝率(FRR) :分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人)的数量占比同类数
错误接受率(FAR) :分类问题中,若两个样本为异类(非同一个人),却被系统误认为同类(同一个人)的数量占比异类数量
阈值:二元分类问题中,对正负类做出判断的关键指标; 类似于人脸识别,该指标越高FRR越高,越低FAR越高;一般根据业务属性做平衡
声纹识别的优点
1、声纹识别是非接触性的,而且语音文件相较于脸部照片来讲隐私程度低
2、声纹识别的可感知度低(欺诈场景不易察觉)
3、麦克风和传感器等相关设备成本低廉,传输带宽窄;触达范围非常广
声纹识别的缺点
1、环境不稳定性:上文流程中的语音增强就是为了减轻环境影响。越糟糕的环境可能效果越差;类似于视觉识别也有光照的问题。技术在一定程度可以避免,但有时提醒用户变更环境效果会更好;
2、设备不稳定性:声音在变为特征编码之前已经进行过一次电信号的转化,一定程度上会影响声纹特征,不同采集信道造成的影响不同,可能发生换设备而导致的误判。需要技术手段规避;
3、人本身的不稳定性:当用户随着年龄变化或着短时间内的生理变化都会导致声音特征改变从而导致识别失败
声纹识别的安全性评估
1、录音场景:犯罪分子可能通过录音目标人的语音来绕过声纹校验;但是一般录音会附带设备的编码影响,可以通过技术手段识别是机器播放还是现场声音来区分
2、模仿/合成:通过技术手段合成目标人的声音,这个目前虽然实现难度大,但个人认为完全有可能的,特别是GAN网络的应用使得生成越来越逼真。
应用场景
1、身份校验
生物识别的目的就是为了证明【你是你】的问题,所以声纹识别可能会用到APP登录、远程确认等场景;目前微信、支付宝就应用了声音登录的功能。
同样声纹识别可以用在门禁系统。但是相比较来讲,人脸识别在体验上都会好一点。
2、金融防欺诈
随着网贷业务的发展,贷款已经实现线上化,自然会有一些组织团伙诈骗贷款。业务流程中通常会有人脸或者电话确认。如果电话确认对接声纹校验将会是一个不易察觉的过程,通过形成声纹黑名单,在后续业务做校验,从而提高诈骗组织的行骗成本。在金融业务上每一层的防护都会产生实际的益处;
3、金融客服
通常来讲,客户和客服沟通在CRM系统下信息都是清晰的,但是在高安全性的金融业务中不排除非本人操作的场景(比如用户要求客服帮助操作),可以通过声纹做高安全级别的再校验
4、智能音箱
家庭智能音箱场景中,使用者通常不是一个人。声音是唯一的身份区别手段,可以通过该功能实现个性化智能;不过因为目前智能对话产品使用水平还未到这个阶段,所以未见有产品使用多身份的功能;