Sora,从哑剧走向有声剧

2024-02-21  本文已影响0人  银河星尘

2024年开年王炸,OpenAI发布的AI视频模型Sora,能够生成长达一分钟的视频,同时保持视觉质量和对用户提示的遵循。确实给影视行业带来了颠覆性的影响!但是现在的Sora视频更像是电影业初期时的「无声电影」。
短短几天之后,语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。而且所有的配音全部由AI生成,没有一点编辑痕迹。
若想精确地实现「视频-音频」的无缝匹配,则需要LLM在其潜在空间内理解一些「隐式的物理原理」。这个属于视觉-音频联合学习(Audio-Visual Learning)领域。
那么,一个端到端的Transformer需要掌握以下能力,才能正确模拟声波:

上一篇下一篇

猜你喜欢

热点阅读