TransWAI：高效实现语音转文字，减少视频翻译周期

2023-01-18 本文已影响0人翻译技术点津

语音识别技术（Automatic Speech Recognition），也被称为自动语音识别，目的在于将语音中的声音内容转换为计算机可识别的输入符号，例如二进制编码或字符串等。

从开始研究至今，语音识别技术的发展已经有半个多世纪的历史。从20世纪80年代开始，国内对语音识别技术的研究取得了许多成果，并在接下来的时间里迅速发展。

作为语音识别技术得到重点应用的领域之一，音视频翻译对于语音转文字的需求可以说是不可或缺。早年间，在语音识别技术尚未完善的时候，译员往往需要经过长时间的听录，来获得视频原声中的文本，这期间会反复经历听录与校对的过程，大大拖慢了视频翻译的进度。

TransWAI 字幕系统

为了实现人机协同的全新翻译辅助模式，优化大规模视频翻译效率，TransWAI 核心技术团队结合前沿尖端技术，推出了音视频转写，即语音转文字功能。

嵌入高精度的HMM声学模型，在声学特征提取时，TransWAI 系统兼具对音频噪声的抗干扰能力和高效准确的压缩编码能力，可轻松从视频原声中提取出合适的声学特征参数，以供提升后续翻译的准确性。

HMM 以及与之相关的技术在语音识别系统中始终处于最核心的地位。TransWAI 对其的采用，能够确保在后续的语言处理中，协助语言模型实现智能化语法、语义分析。

现行的语音识别技术仍然存在诸多限制因素。为了实现多语种混合系统，TransWAI 正不断改进系统建模方法、提高搜索算法的效率，以做到词汇量无限制和多重语言混合，减少词汇量对语音识别系统的限制。

通过积攒的数十亿句对行业专业语料，TransWAI有望在语音转文字这一功能上取得持续性突破，未来还将增加更多语种，并不断优化识别准确率和用户体验。

任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间，以使我们获得更大的自由。为了更好地服务于跨语言需求，TransWAI 仍然有很长的路要走，期冀在未来，全新的多语种自由交流系统带给人类全新的生活体验。