DreamFace数字人实现图片完美对口型,吸引多行业关注。它是影眸科技与上海科技大学研发的文本指导渐进式3D生成框架,融合多种技术,有几何体、材质扩散、动画能力三大核心模块,相比传统3D生成方法更准确、快速且兼容CG管线。其实现完美对口型关键在于动画能力生成模块,多模块协同运作保障准确性和自然度。在娱乐领域可节省影视制作成本、提升短视频趣味性;在教育和广告宣传行业也有巨大潜力。与同类技术相比,DreamFace在准确性和生成效率上优势明显。未来,它有望提升处理复杂语言和口音的能力,与更多硬件结合;将推动数字人产业发展,替代部分真人工作,为艺术创作带来新可能。DreamFace是数字人发展的重要里程碑,期待其未来有更多突破并健康发展。
与传统的 3D 生成方法相比,DreamFace 具有显著的优势 。它拥有更高的准确性,能够更精准地根据文本生成符合要求的 3D 数字人;运行速度更快,大大提高了生产效率;并且具备良好的 CG 管线兼容性,可以与工业界的 3D 软件如 Unity、Unreal Engine 和 Maya 等完美配合,直接应用于影视制作和游戏生产等实际场景中。这项工作已经被计算机图形领域国际顶级期刊 Transactions on Graphics 接收,并在国际计算机图形顶级会议 SIGGRAPH 2023 上展示,足以证明其在行业内的领先地位和创新性 。
三、完美对口型背后的原理揭秘
(一)动画能力生成模块
DreamFace 实现图片完美对口型的关键在于其独特的动画能力生成模块 。与传统基于 BlendShapes 的方法不同,DreamFace 采用了神经面部动画方法。在这个过程中,首先训练几何生成器,让其深入学习表情的潜在空间,同时将解码器扩展为以中性几何形状为条件 。简单来说,就是让几何生成器理解不同表情所对应的潜在特征,并且能够在中性的面部几何形状基础上进行变化。
接着,训练表情编码器,其作用是从 RGB 图像中精准提取表情特征 。这些表情特征包含了丰富的信息,如嘴角的上扬幅度、眼睛的微表情变化等。当有了经过训练的几何生成器和表情编码器后,DreamFace 就能够使用单目 RGB 图像,以中性几何形状为条件来生成个性化的动画 。在处理一段音频时,表情编码器会根据音频的节奏、语调等信息,从 RGB 图像中提取相应的表情特征,几何生成器则依据这些特征,对静息模型进行独特的变形,从而赋予模型生动的动画效果,实现精准的对口型,让数字人的口型与所说内容完美同步。
(二)多模块协同运作
除了动画能力生成模块,DreamFace 的几何体生成模块和基于物理的材质扩散生成模块也在对口型过程中发挥着重要作用 。几何体生成模块根据文本提示生成精准的几何模型,确定了数字人的面部基本结构,包括嘴巴的形状、大小和位置等 。这些基础结构为后续的对口型提供了硬件基础,只有嘴巴的几何形状准确,才能实现自然的口型变化。
基于物理的材质扩散生成模块则专注于生成与预测几何体和文本提示一致的面部纹理 。在对口型时,面部纹理的变化也会影响口型的视觉效果,比如嘴唇的颜色、光泽以及皮肤的细节等。当数字人说话时,嘴唇的纹理会随着口型的变化而产生相应的拉伸、收缩等效果,该模块确保了这些纹理变化的自然和真实。