2022-04-28《当产品经理遇到人工智能》读书笔记06 语音

2022-04-28  本文已影响0人  May_1013

第四章 产品模式

       人工智能产品的3个层次: 计算智能、感知智能和认知智能。其中感知智能指自然语言处理、语音识别、语音合成、计算机视觉四大应用类型。后续学习以此分类为主要视角。

语音识别产品应用

1、产品形态:根据识别内容的范围可分:封闭域识别和开放域识别

       1)封闭域识别

              只能够识别预先指定的字词集合,无法识别预定范围之外的语音

       2)开放域识别

              对输入的语音都能识别,无须预先指定识别词集合

              这一类产品基本都以云端的形式呈现,声学模型核语音模型的计算量一般较大,引擎运算量也较大。

              实时性要求不同

                                   同步识别:实时要求高

                                   异步识别:准确率要求高

2、常见功能

                     语音控制

                     语音转录

                     语言翻译

                     衍生应用

                            声纹识别(属于生物识别)

                            情感识别

                            哼唱识别

3、产品设计及评价

       1)设计难点

                            口音问题

                            噪声问题

                            说话模式影响

                            单通道核多人会话

                            上下文理解

                            延迟

                            其他因素

       2)细节设计

                            语音激活检测

                            语音唤醒

                            语音自适应回声消除AEC

                            低信噪比SNR和混响

       3)产品评价指标

                            评价语音识别系统的性能指标

                                   词汇表范围

                                   说话人限制

                                   训练要求

                                   正确识别率:词错误率WER、语义错误率

上一篇下一篇

猜你喜欢

热点阅读