2022-04-28《当产品经理遇到人工智能》读书笔记06 语音
第四章 产品模式
人工智能产品的3个层次: 计算智能、感知智能和认知智能。其中感知智能指自然语言处理、语音识别、语音合成、计算机视觉四大应用类型。后续学习以此分类为主要视角。
语音识别产品应用
1、产品形态:根据识别内容的范围可分:封闭域识别和开放域识别
1)封闭域识别
只能够识别预先指定的字词集合,无法识别预定范围之外的语音
2)开放域识别
对输入的语音都能识别,无须预先指定识别词集合
这一类产品基本都以云端的形式呈现,声学模型核语音模型的计算量一般较大,引擎运算量也较大。
实时性要求不同
同步识别:实时要求高
异步识别:准确率要求高
2、常见功能
语音控制
语音转录
语言翻译
衍生应用
声纹识别(属于生物识别)
情感识别
哼唱识别
3、产品设计及评价
1)设计难点
口音问题
噪声问题
说话模式影响
单通道核多人会话
上下文理解
延迟
其他因素
2)细节设计
语音激活检测
语音唤醒
语音自适应回声消除AEC
低信噪比SNR和混响
3)产品评价指标
评价语音识别系统的性能指标
词汇表范围
说话人限制
训练要求
正确识别率:词错误率WER、语义错误率