数据堂自有版权语音数据-基础语音数据系列

2019-04-26  本文已影响0人  数据堂Datatang

语音识别技术(Automatic Speech Recognition, ASR)是计算机听觉领域中重要的研究方向之一。其目标是就是让机器把语音信号转变为相应的文本,进而达到机器自动识别和理解语音内容。语音识别作为一种基础层感知类技术,既可以作为核心技术直接应用于终端产品,也可以仅作为一种感知类辅助技术集成于语音助手、车载系统、智慧医疗、智慧法院等场景的产品中。

—语音识别系统原理—

目前语音识别的技术成熟度已经有了较大的提升,但还无法达到100%的准确度。其主要瓶颈在于语音交互受背景噪音、语速等多重因素影响,不同场景识别率差别较大;语音识别缺乏通过上下文来纠正文字的能力;语义不全等。尽管现在顶级的语音识别系统正确率普遍超过95%,即每20个字错一个字。但是这些错字有可能是关键字错误,比如说少了一个“不”字。这类错误会导致语义产生严重变化。此外,还有如何解决方言口音和语音系统快速迁移等都是语音识别工程中需要考虑的问题。

目前现有的语音系统对于这些问题缺少很好的解决手段,解决这个问题既需要改善算法本身,也需要大量的有效的数据进行算法训练,从而使算法达到一定的成熟度。

数据堂专注于AI数据生产,拥有国际领先的自主核心数据处理技术,已实现基于“Human-in-the-loop”技术进行大规模的数据生产能力,在语音识别数据服务领域,数据堂判研行业趋势,已生产出包含中文普通话(2700+小时)、中文方言(10000+小时)、英语系(6500小时)、欧洲语系(8700小时)、亚洲语系(6400小时)、美洲语系(1000小时)、噪声数据(1400小时)等大量的自有版权的语音数据,可以为AI企业提供有效的训练数据,解决迫在眉睫的数据需求。

数据堂语音标注预识别技术

数据堂自有版权语音数据-基础语音数据

数据名称

中文普通话(2700+小时)

1768小时普通话手机采集语音数据

1000小时中文重口音手机采集语音数据

207人噪音环境口音普通话手机采集语音数据_朗读

中文方言(10000+小时)

1652小时粤语手机采集语音数据

1032小时上海方言手机采集语音数据

1044小时闽南语手机采集语音数据

794小时四川方言手机采集语音数据

1000小时长沙方言手机采集语音数据

1000小时武汉方言手机采集语音数据

1000小时昆明方言手机采集语音数据

738小时维语手机采集语音数据

250人苏州方言手机语音采集数据

400人杭州方言手机语音采集数据

312人东北方言手机采集语音数据

463人河南方言手机采集语音数据

1000小时藏语手机采集语音数据

204人台湾普通话手机采集语音数据_朗读

英语系(6500小时)

1000小时美式英语手机采集语音数据

1000小时英式英语手机采集语音数据

1000小时印度英语手机采集语音数据

1000小时中国人说英语手机采集语音数据

1000小时西班牙人说英语手机采集语音数据

1000小时法国人说英语手机采集语音数据

1000小时德国人说英语手机采集语音数据

欧洲语系(8700小时)

2000小时德语手机采集语音数据

2000小时意大利语手机采集语音数据

1000小时法语手机采集语音数据

1700小时西班牙语手机采集语音数据

1000小时欧洲葡萄牙语手机采集语音数据

1000小时俄语手机采集语音数据

亚洲语系(6400小时)

1000小时印地语手机采集语音数据

1000小时日语手机采集语音数据

1000小时印尼语手机采集语音数据

1000小时马来语手机采集语音数据

1000小时越南语手机采集语音数据

1000小时泰语手机采集语音数据

1000小时韩语手机采集语音数‍

美洲语系(1000小时)

1000小时巴西葡萄牙语手机采集语音数据

噪声数据(1400小时)

1400小时录音笔采集场景噪音数据

了解更多:

更多产品及产品样例请咨询客服:400-650-6137转8288

数据堂网站:www.datatang.com

 

数据堂自有版权数据集产品推荐

智能安防全套数据产品

手势识别 | 314,178张 18种手势识别数据

人像属性识别 | 20万框 监控人体属性数据

智能驾驶|1000人驾驶员行为数据

555 小时全领域客服普通话实网采集语音数据

10000小时 各地区方言语音识别数据汇总

11000小时 十国外语语音数据汇总

3000小时 中国儿童手机采集语音数据

100万张+ 人脸识别图像数据集汇总

691万组 平行语料数据集汇总

关于数据堂

数据堂(北京)科技有限公司,成立于2011年(股票代码:831428),专注于人工智能数据服务,致力于为全球人工智能企业提供数据获取及数据产品服务。

数据堂总部位于北京,拥有8家全资和控股子公司,并在硅谷设立美国子公司,目前在南京、保定、合肥、贵阳等地设有多个专业数据处理中心。数据堂数据采集范围遍及全球30多个国家,合作伙伴遍布世界10多个国家。

公司创始人及合伙人来自Stanford University、NEC、中国移动等知名高校和高科技公司。数据堂已成功为国内外众多企业提供人工智能数据产品与服务,包括百度、腾讯、阿里巴巴、奇虎、联想、科大讯飞等国内顶级互联网和高科技企业,Microsoft、NEC、Canon、Intel、Samsung、Nuance、Fujitsu等企业及在华研发机构。

上一篇 下一篇

猜你喜欢

热点阅读