NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

视频人像编辑技术已经在电视、视频和电影制作中得到了应用，并有望在不断发展的网真场景中发挥关键作用。现在，来自北京模式识别国家实验室（NLPR）、商汤科技研究和南洋理工大学的研究人员通过一个新的框架将这项技术向前推进了一步，该框架可以实现完全任意的音频 - 视频翻译。为了增加合成视频的真实感，研究人员结合了许多不同的模型和网络。在音频方面，他们使用音频到表情的翻译网络来识别特定的音频特征，并将其与面

大伟先生

1324人浏览 · 2023-08-15 12:47:54

大伟先生 · 2023-08-15 12:47:54 发布

视频人像编辑技术已经在电视、视频和电影制作中得到了应用，并有望在不断发展的网真场景中发挥关键作用。最先进的方法已经可以逼真地将同源音频合成为视频。现在，来自北京模式识别国家实验室（NLPR）、商汤科技研究和南洋理工大学的研究人员通过一个新的框架将这项技术向前推进了一步，该框架可以实现完全任意的音频 - 视频翻译。

在开发该项目时，研究人员面临着许多挑战：

1、如何在没有源视频的情况下执行从音频到视频的直接映射

2、如何概括同一音频剪辑上不同说话人的面部表情

3、如何保持视频背景的完整性和清晰度，防止扬声器头部移动引起的遮挡等

2023-08-15T03:17:20.png