快手的高技术

2018-09-17 本文已影响31人 alucardzhou

https://mp.weixin.qq.com/s/kQozftKd_n_kYIF7KKCc8g

除了 Interspeech 接收的这篇 Oral 论文，快手还有很多不同方向的研究，包括计算机视觉、自然语言处理和情感计算等等。因为快手平台每天都有大量的短视频上传，因此如何分层有序地提取视频信息、理解视频内容就显得尤为重要。针对该问题，快手多媒体内容理解部门通过感知和推理两个阶段来解读一个视频，首先感知获取视频的客观内容信息，进而推理获取视频的高层语义信息。

在感知阶段，除了上文所述的语音处理，快手还会从另外三个维度来分析理解视频内容，包括人脸、图像和音乐。

对于语音信息，快手不仅进行语音识别，还需要实现说话人识别、情绪年龄等语音属性信息分析。

对于人脸信息，快手会对视频中的人脸进行检测、跟踪、识别，并分析其年龄、性别、3D 形状和表情等信息。

对于图像信息，快手会通过分类、物体检测等算法分析场景、物体，通过图像质量分析算法对图像的主观质量进行评估，通过 OCR 分析图像中包含的文字信息等。

对于音乐信息，快手需要进行音乐识别、歌声/伴奏分离、歌声美化打分等分析，对音乐信息进行结构化。

从以上四个方面，快手能抽取足够的视频语义信息，并为推理阶段提供信息基础。推理阶段可以将视频看做一个整体，进行分类、描述、检索。此外，高级视频信息也可以整理并存储到快手知识图谱中，这样融合感知内容和知识图谱，就可以完成对视频高层语义及情感的识别。因此，感知与推理，基本上也就是快手多媒体理解部门最为关注的两大方面。

快手的高技术

猜你喜欢

热点阅读