微软Edge,你这是人干的事吗?
不是,这是微软的人工智能。
先从 Edge 浏览器说起,大家肯定不陌生了,它现在早已「弃暗投明」把内核更换为 Chromium ,之前刚有风声出内测版的时候就在这篇文章中
《微软新版 Edge 泄露!留给 Chrome 的时间不多了?》给大家详细介绍过了。
不过,尽管 Edge 涨势凶猛,但是某些扩展和脚本在 Edge 上的兼容性还是不如 Chrome,再加上习惯原因,我的主力浏览器还是 Chrome。
不过,最近我在 Edge 上发现了一个功能,效果极其出众,而 Chrome 上面却没有,让我着实羡慕了。
这个功能并不是最近才出的,只不过大家都没太在意,更没有过多去研究,相信我,看了今天这篇文章,一定能让你产生想要「折腾」一下的兴趣。
因为,它虽然不是人干的,但是几乎可以以假乱真。
大声朗读
这个就是 Edge 独占的「大声朗读」功能,可以把浏览器内的文字生成 TTS 语音朗读,这功能并不新奇,很多软件以及在线网站都有,但是这类工具调用的都是通用的引擎,语音发声一听就是合成的,根本让人无法听下去。
但是 Edge 的「大声朗读」效果就不同了,要知道微软在人工智能语音合成领域可是有多年功力积淀的,背靠巨硬这颗大树,Edge 的「大声朗读」效果堪比真人发音,不细听你还真分不出来。
当然说一千道一万,还不如让大家直接听一下。
来先听下普通话女声,Lady first。
再听下普通话男声。
怎么样,这「两位」的普通话不「普通」吧,吐字清晰,字正腔圆,并不是死板地读下来,甚至还带了一点语调。
总之声音完全不像其他那些软件文字转的语音那么机械僵硬,尤其是某些视频博主配的配音,都是这类软件文字转的语音,莫得一点感情。
而且还有一点是什么?不知道大家有没有发现,那就是它们朗读时断句断得是比较准确的,说明它们可以准确判断出句中的断句位置。
大家都知道,当让你第一次朗读一篇文章时,估计大多数人都无法流利的朗读下来,中间肯定会出现一些错误,然而你也听到了,新 Edge 的「大声朗读」功能基本不会出现这种错误。
还有就是这个功能不需安装任何扩展就可以直接在新版 Edge 中使用,使用起来非常简单方便。
当你想在电脑上听网页上的小说时,或者看电脑累了想放松听下网页内容时,这个功能就派上用场了。
直接点开菜单栏中就就能看到大声朗读功能。
或者直接在页面点击鼠标右键也可以。
如果不需要朗读网页上的全部文字,那就选中文字后再右键点击朗读所选内容即可。
当开始朗读之后,页面上方会出现一些控制按钮,比如暂停或切换段落,右边的语音选项中还可以调节朗读速度,以及切换语音。
在选择语音时,普通话的话我建议选择红框中的前两个,刚才展示的普通话也就是这两个,你还可以选择粤语以及台湾省的方言,
细心的小伙伴还会发现,他们其实都有自己的名字,比如说普通话的叫做 Xiaoxiao 和 Yunyang,一听就分别是女生和男生的名字。他们都是微软 Azure 认知服务语音合成中公共语音的一员。
其他支持的语言,看了下,目前主流的外语都不在话下。
大家都可以试试看,不过目前公认效果最好的还是「xiaoxiao」,也就是文章开头的例子。
我觉得那些视频博主完全可以用新 Edge 的大声朗读功能来给他们的视频配音,所以那就需要用新 Edge 浏览器打开文本内容,新建一个文本文档,它可以在新 Edge 浏览器中直接打开。
然后把朗读生成的语音内录保存,效果绝对碾压抖音上的营销号视频效果。
手机端使用
可惜的是这个大声朗读功能只能在新 Edge 的电脑端使用,不过多亏一位名叫「丨丨丨丨丨」(没错,这就是他的 ID)的酷安用户把微软的语音服务整合到 App 里,然后就可以将手机内置的 TTS 引擎更换为微软,如此就可以在手机上调用「大声朗读」的功能,不过只能在安卓手机上使用。
安装 App 之后,首先点击系统 TTS 设置把首选引擎更改为大声朗读,下面也可以调节语速和音高,还可以点播放进行试听。
图片
然后点击 SSML 语音合成标记语言,可以看到它默认的就是刚才那位女生 Xiaoxiao 的语音。
那什么是 SSML 语音合成标记语言呢?
根据微软官方的解释:
语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,可让开发人员指定如何使用文本转语音服务将输入文本转换为合成语音。 与纯文本相比,SSML 可让开发人员微调音节、发音、语速、音量以及文本转语音输出的其他属性。SSML 可自动处理正常的停顿(例如,在句号后面暂停片刻),或者在以问号结尾的句子中使用正确的音调。
图片
简单说,有了这个技术,Xiaoxiao 可以用更多的风格,或者说是情感来朗读了。
我们简单听几个,看看到底和正常的风格有什么不一样?
沉着冷静
https://yy.clubfires.com/#/audio/detail?id=1239
紧张恐惧
https://yy.clubfires.com/#/audio/detail?id=1240
生气
https://yy.clubfires.com/#/audio/detail?id=1241
撒娇
https://yy.clubfires.com/#/audio/detail?id=1242
那怎么用呢?比如说,下面的的代码就设置了 Xiaoxiao 生气风格的 AI 语音,把它复制粘贴到前面点开 SSML 语音合成标记语言之后的输入框内点击确定就可以更换风格了。
更换其它风格时把angry换成其它单词就可以了,建议大家一定要试试(撒娇affectionate)这个效果,非常销魂。
(不过我在实际测试过程中发现以上代码直接复制,有部分手机不生效,来回重复测试了 N 多遍,还是不能解决问题,怀疑问题出在微信对话框换行标记和编辑器的换行标记不一致。
为了保证大家都能用上,最后找到的办法是把代码存成了 TXT 记事本,在后台回复口令获取,这个确保都能生效,为了搞定这个问题昨晚折腾到了一点钟。。。 )
不过这个只能在你使用 App 中朗读功能时才能用,它并不能改变手机自带的语音引擎,比如说小爱同学。
比如说,用之前安利的阅读 App 听书时,先在大声阅读 App 中设置不同的朗读风格,然后在阅读 App 朗读时勾选跟随系统就可以了。
至于用哪个就看你喜欢什么风格了,说到这里,我估计你们又会在评论里说「我有一个大胆的想法」,你懂的。
如此以来,这个应用场景就大大拓宽了,相信有很多小伙伴喜欢听书,不过可不是所有小说都有真人朗读版本,用这个就可以想听啥就有啥。
结语
本来说到这儿就算完事了,从新 Edge 的大声朗读功能来看,微软的人工语音合成效果已经足够出色了,但这还不算完。
微软一直都在憋大招,你觉得上面的效果就不错了对吧,来,再听听下面这段:
微软小冰 F201 首次曝光,这声音不是人类?来自网罗灯下黑00:0003:55
这是我从 B 站上一个关于小冰 F201 首次曝光的视频提取出来的音频,你从弹幕中就能感觉到这效果究竟如何:
看了这个视频的人,第一反应都以为这是真的,当知道是 AI 后,没有人不为之感到震撼,甚至有那么一丝恐惧:这是人工智能觉醒了吗?
就拿一位小伙伴的话来说:不管是语调、尾音、口音,甚至说每句话的抑扬顿挫,和普通的人实在太像了。
我也不多分析了,感受就只一句:俺也一样。
感兴趣的可以去看看视频 bilibili.com/video/BV1LC4y1h7kA
不过目前这个代号为 F201 的人声目前还没有开放使用,我相信,这其中并不存在技术上的难关,正是因为效果过于逼真,如果开放使用可能会带来意想不到的隐患。
现在的问题是,球已经踢回给人类了,留给人类代表队的时间真的不多了。
下载:https://wws.lanzous.com/if91Yklnkla
本文首发于微信公众号网罗灯下黑(wldxh8),未经授权请勿转载