腾讯Sonic数字人技术：一张照片 + AI 魔法，口型、表情、动作全搞定

00:00

以往的数字人技术，要么不够逼真，要么对输入要求太高。列如有些需要超级精细的 3D 模型，有些只能生成特定角度的视频，不够灵活。

随着 AI 技术的飞速发展，数字人正变得越来越逼真、越来越智能。近日，腾讯发布了名为 Sonic 的全新数字人技术。Sonic 最大的亮点在于，它仅需一张照片和一段音频，就能生成高度逼真的人物说话视频。不过，Sonic 并非只是简单的“换脸”或“口型对齐”，而且表情自然、口型精准，甚至还能唱 RAP！它在背后融入了诸多创新技术，才得以实现如此惊艳的效果。

腾讯Sonic数字人技术：一张照片 + AI 魔法，口型、表情、动作全搞定

Sonic 是一种 AI 技术，能够根据一张静态照片和一段声音，生成逼真的人物说话视频，而且视频中的人物表情、口型和头部动作都能与声音完美同步。Sonic 的目标就是打造一个更通用、更逼真、更灵活的数字人生成方案。

腾讯Sonic数字人技术：一张照片 + AI 魔法，口型、表情、动作全搞定

列如我们输入如上一张图，然后给模型提供一段音频，Sonic模型会自动听取音频中的内容，并根据音频内容，把图片与音频合成一段视频，其中人物的口型，表情，动作简直不要太逼真。合成的视频如下：

00:00

在深入了解 Sonic 的技术细节之前，先思考一下，一个逼真的人体动画，究竟需要具备哪些要素：

准确的口型同步：数字人物的口型必须与音频内容完美匹配，这是最基本的要求。
自然的表情变化：人类的情感是复杂的，数字人物需要能够根据音频的情感和语境，自然地展现喜怒哀乐等各种表情。
灵活的头部动作：头部是人体最灵活的部位之一，数字人物需要能够自然地转头、点头、摇头，才能显得更加生动。
长时序的稳定性：生成较长的视频，需要保证人物的身份一致性，避免出现“变脸”等问题。

腾讯Sonic数字人技术：一张照片 + AI 魔法，口型、表情、动作全搞定

以往的数字人技术，往往难以同时兼顾以上所有要素。而 Sonic 则力求在各个方面都做到极致，打造更具“灵魂”的数字人。

Sonic 架构详解：多模态融合，全局音频感知

腾讯Sonic数字人技术：一张照片 + AI 魔法，口型、表情、动作全搞定

要理解 Sonic 的技术突破，我们第一需要了解它的整体架构。Sonic 并非简单地将音频和图像信息进行融合，而是采用了一种更精巧的设计：

多模态信息编码： Sonic 模型能够同时接收来自图像和音频的信息。对于图像，Sonic 主要提取人物的外貌特征，列如脸型、五官、发型等。对于音频，Sonic 则提取声音的语调、节奏、情感等信息。这些信息经过编码后，形成 Sonic 能够理解的向量表明。

腾讯Sonic数字人技术：一张照片 + AI 魔法，口型、表情、动作全搞定

全局音频感知模块：这是 Sonic 的核心创新之一。Sonic 并没有像以往的技术那样，只关注音频的局部信息（列如每个音节的发音），而是更加注重理解音频的全局信息，包括：

长时序音频依赖：通过 Context-enhanced audio learning 模块，Sonic 能够学习音频中长距离的时间依赖关系，从而更好地理解音频的上下文信息。
解耦运动控制器：通过 Motion-decoupled Controller 模块，Sonic 将头部运动和表情变化解耦，实现更精细化的控制。
时序感知的运动融合：将编码后的图像信息和全局音频信息进行融合，并使用一种叫做 “Time-aware Position Shift Fusion” 的技术，让模型能够生成时间上连贯的视频。这种方法不需要依赖额外的运动帧信息，因此能够显著降低计算复杂度。

腾讯Sonic数字人技术：一张照片 + AI 魔法，口型、表情、动作全搞定

技术创新一：Context-enhanced Audio Learning（上下文增强音频学习）

为了捕捉音频中的全局信息，Sonic 采用了 Context-enhanced Audio Learning 模块，其核心思想是：