vividtalk官网,一張照片、一段声音秒生超逼真影片!
简介
你只需要提供一張人物的静態照片和一段语音錄音,VividTalk就能將它们結合起来,制作出一个看起来像是實際說话的人物的影片。而且面部表情和頭部动作都很自然,口型可以同步、支持多种语言,不同風格,如真實風格、卡通風格等。该專案由由南京大学、阿里巴巴、字節跳动和南開大学共同開發。
專案及演示:https://humanaigc.github.io/vivid-talk/
論文:https://arxiv.org/pdf/2312.01841.pdf
GitHub:https://github.com/HumanAIGC/VividTalk

主要功能和特色
VividTalk透過先进的音频到3D网格映射技術和网格到影片的轉换技術,實现了高质量、逼真的音频驱动的說话頭像影片生成。
工作原理
1、音频到网格的映射(第一阶段):
在这一阶段,VividTalk首先將输入的音频映射到3D网格上。这涉及学習两种类型的運动:非刚性表情運动和刚性頭部運动。
對于表情運动,技術使用混合形状(blendshape)和頂点作為中间表示,以最大化模型的表示能力。混合形状提供了全局的粗略運动,而頂点偏移则描述了更細致的嘴唇運动。
對于自然的頭部運动,VividTalk提出了一个新颖的可学習的頭部姿势代碼本,采用了两阶段訓练机制。

2、网格到影片的轉换(第二阶段):
在第二阶段,VividTalk使用双分支運动-VAE(變分自编碼器)和生成器將学習到的网格轉换為密集的運动,并基于这些運动逐帧合成高质量的影片。
这一过程涉及將3D网格的運动轉换為2D密集運动,然后输入到生成器中,以合成最終的影片帧。
3、高視觉质量和真實感:
VividTalk生成的影片具有高視觉质量,包括逼真的面部表情、多样的頭部姿势,并且在嘴唇同步方面有顯著提升。
透過这种方法,VividTalk能够生成与输入音频高度同步的逼真說话頭像影片,提高了影片的真實感和动態性。
数据评估
本站ai工具百寶箱提供的vividtalk都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai工具百寶箱实际控制,在2025年11月11日 下午6:14收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai工具百寶箱不承担任何责任。
