AI 技术改变视频中的情绪表达:潜在影响与未来应用

2024年12月8日修改
在当今科技飞速发展的时代,人工智能(AI)的应用领域不断拓展,其中一项引人注目的研究是利用 AI 技术改变视频中的人物情绪表达。来自希腊和英国的研究人员开发了一种新颖的深度学习方法,能够在保留人物唇部动作与原始音频一致性的同时,巧妙地改变视频中人物的表情和看似的情绪,这是以往尝试所未能达到的水平。
从相关论文所附带的视频中(本文末尾有嵌入链接),我们可以看到演员阿尔·帕西诺(Al Pacino)的表情被 NED 基于高级语义概念进行了微妙的改变。这种基于定义个体面部表情及其相关情绪的高级语义概念的“参考驱动”方法,将源视频的解释情绪应用于整个视频序列。
这一领域属于不断发展的深度伪造情绪范畴,在保留原始说话者身份的同时,改变了他们的表情和微表情。随着这项 AI 技术的成熟,它为电影和电视制作提供了对演员表情进行微妙调整的可能性,但同时也开启了一个全新的“情绪改变”视频深度伪造类别。
在现实生活中,公众人物的面部表情,如政治家的表情,会受到严格的关注和管理。2016 年,希拉里·克林顿(Hillary Clinton)的面部表情因其对她选举前景的潜在负面影响而受到媒体的密切审查;联邦调查局(FBI)也对面部表情表示出兴趣;此外,面部表情在工作面试中也是一个关键指标,这使得对于试图通过 Zoom 预筛选的求职者来说,一个实时的“表情控制”过滤器的前景虽然遥远,但却是一个令人向往的发展。
英国的一项 2005 年的研究表明,面部外观会影响投票决定,而《华盛顿邮报》在 2019 年的一篇专题文章探讨了“断章取义”的视频片段分享,这是目前假新闻支持者能够改变公众人物表现、反应或感觉的最接近的方式。
目前,在操纵面部情感方面的技术水平还相当初级,因为它涉及到从实际视频内容中分离出高级概念(如悲伤、愤怒、快乐、微笑)的难题。尽管传统的深度伪造架构在实现这种分离方面表现得相当不错,但要在不同身份之间映射情绪,仍然需要两个训练面部集包含每个身份的匹配表情。
由于面部身份和姿势特征目前紧密交织在一起,为了在诸如 DeepFaceLab 等系统上训练一个有效的深度伪造模型,需要在两个面部数据集中实现广泛的表情、头部姿势和(在较小程度上)光照的一致性。如果需要,在两个面部数据集中特定配置(如“侧视图/微笑/阳光照射”)出现的越少,在深度伪造视频中的渲染就越不准确。
理想的情况是,能够识别出对象 B(例如)如何微笑,并在架构中简单地创建一个“微笑”开关,而无需将其映射到对象 A 微笑的等效图像。然而,这一目标尚未完全实现。
新的论文《神经情感导演:在“野外”视频中保持语音的面部表情语义控制》来自雅典国立技术大学电气与计算机工程学院、希腊研究与技术基金会(FORTH)计算机科学研究所以及英国埃克塞特大学工程、数学和物理科学学院的研究人员。该团队开发了一个名为神经情感导演(NED)的框架,其中包含一个基于 3D 的情绪转换网络和 3D 基于情绪的操纵器。
NED 接受一系列表达参数,并将其转换到目标域。它是在非并行数据上进行训练的,这意味着不需要在每个身份都有相应面部表情的数据集上进行训练。本文末尾的视频展示了 NED 在 YouTube 数据集的镜头上施加明显情绪状态的一系列测试。作者声称,NED 是第一种在随机和不可预测情况下“指导”演员的基于视频的方法,并在 NED 的项目页面上提供了代码。
该系统在两个已标注“情绪”标签的大型视频数据集上进行训练。通过视频面部渲染器,使用传统的面部图像合成技术,包括面部分割、面部标志对齐和混合,将所需的情绪渲染到视频中,其中仅合成面部区域,然后将其叠加到原始镜头上。
研究人员进行了广泛的研究,包括用户研究和消融研究,以评估该方法与之前工作的有效性对比,发现 NED 在神经面部操纵的这个子领域的大多数类别中都优于当前的技术水平。
论文的作者设想,这项工作的后续实施以及类似性质的工具,将主要在电视和电影行业中发挥作用,他们表示:“我们的方法为神经渲染技术的有用应用开辟了众多新的可能性,从电影后期制作和视频游戏到照片级真实感的情感化身。”
这是该领域的早期工作之一,但却是首次尝试使用视频而不是静态图像进行面部重演。尽管视频本质上是许多快速连续播放的静态图像,但存在时间因素使得以前的情绪转移应用效果较差。在附带的视频以及论文中的示例中,作者将 NED 的输出与其他近期可比方法进行了视觉比较。
总的来说,这项 AI 技术的发展为影视行业带来了新的可能性,但同时也引发了关于道德和伦理的思考。我们需要在充分利用技术优势的同时,谨慎对待其可能带来的潜在影响,确保技术的发展符合人类的利益和价值观。