阿里EMO
阿里EMO官网,Emote Portrait Alive,使用一張圖片生成极度真實的唱歌說话影片
简介
阿里發布EMO(Emote Portrait Alive)使用一張圖片生成极度真實的唱歌說话影片,这下數字人行業估计要全体起立,如果說SORA让现實不存在了,那这个專案应该怎么形容
EMO是什么
EMO (Emote Portrait Alive)是由阿里巴巴集團智能计算研究院的研究人员開發的框架,一个音频驱动的A肖像影片生成系統,能够透過输入單一的参考因像和语音音频,生成具有表现力的面部表情和各种頭部姿势的影片。该系統能够捕捉到人类表情的細微差别和个体面部風格的多样性,从而生成高度逼真和富有表现力的动画。
官方專案地址: https://humanaigc.github.io/emote-portrait-alive/
arxiv研究論文:https://arxiv.org/abs/2402.17485
EMO GitHub: https://github.com/HumanAIGC/EMO(模型和源碼待開源)


阿里巴巴集團智能计算研究所團队(作者 Linrui Tian, Qi Wang,Bang Zhang, Liefeng Bo )研發了 EMO技術框架,一个能够根据單張圖片和声音输入(如對话或歌唱)生成具有丰富表情和多變頭部姿势的人像影片的框架。無論输入音频的长度如何,我们都能够生成相应时长的影片,完美保持角色的个性和特征。
EMO主要功能和特色
•音频驱动的影片生成:EMO能够根据输入的音频(如說话或唱歌) 直接生成影片,無需依賴于预先錄制的影片片段或3D面部模型。
。高表现力和逼真度:EMO生成的影片具有高度的表现力,能够捕捉并再现人类面部表情的細微差别,包括微妙的微表情,以及与音频節奏相匹配的頭部運动。
•無缝帧过渡:EMO确保影片帧之問的过渡自然流畅,避免了面部扭曲或帧問抖动的問题,从而提高了影片的整体质量。
。身份保持:透過FrameEncoding模块,EMO能够在影片生成过程中保持角色身份的一致性,确保角色的外觀与输入的参考圖像保持一致。
•穩定的控制机制:EMO采用了速度控制器和面部区域控制器等穩定控制机制,以增强影片生成过程中的穩定性,避免影片崩溃等問题。
。靈活的影片时长:EMO可以根据输入音频的长度生成任意时长的影片,為用户提供了靈活的創作空间。
。跨语言和跨風格:EMO的訓练資料集涵蓋了多种语言和風格,包括中文和英文,以及现實主義、动漫和3口風格,这使得EMO能够适应不同的文化和艺術風格。

1. 输入准備:用户提供一个参考圖像(通常是目标角色的静態肖像)和相应的音频输入(如說话或唱歌的声音)。这些输入將作為生成影片的基礎。
2. 特征提取:使用ReferenceNet从参考圖像中提取特征。ReferenceNet是一个与主網路 (Backbone Network)結构相似的網路,它專注于从输入圖像中提取详細的特征。
3. 音频處理:音频输入透過预訓练的音频编碼器處理,以提取音频特征。这些特征捕捉了语音的節奏、音调和發音等信息,这些信息將用来驱动影片中角色的面部表情和頭部动作。
4. 擴散过程:在擴散过程中,主網路接收多帧噪声作為输入,并尝試在每个时间步驟中將这些噪声去噪成連續的影片帧。这个过程涉及到两个主要的注意力机制:Reference-Attention和Audio-Attention。 Reference-Attention用于保持角色身份的一致性,而Audio-Attention则用于调制角色的动作。
5. 时問模块:為了處理时间维度并调整动作的速度,EMO使用了时间模块。这些模块透過自注意力机制在帧内的特征上操作,以捕捉影片的动態内容,并确保連續帧之间的連貫性和一致性。
6. 面部定位和速度控制:為了确保生成的角色动作的穩定性和可控性,EMO使用了面部定位器 (Face Locator) 和速度層 (Speed Layers)。面部定位器透過轻量級卷积層编碼面部邊界框区域,而速度層则透過將頭部旋轉速度嵌入到生成过程中来控制动作的速度和频率。
了.訓练策略:EMO的訓练分為三个阶段:圖像预訓练、影片訓练和速度層集成。在圖像预訓练阶段,主網路和 ReferenceNet从單帧圖像中学習。在影片訓练阶段,引1入时间模块和音频層,以處理連續帧。最后,在速度層集成阶段,只訓练时间模块和速度層,以确保音频對角色动作的驱动能力。
8.生成影片:在推理阶段,EMO使用DDIM采样算法生成影片片段。透過迭代去噪过程,最終生成与输入音频同步的肖像影片。
这个工具特别之處在于它能够利用單一的参考圖像和音频(如說话或唱歌)来生成丰富的面部表情和頭部姿势變化的肖像影片。EMO 的特点是可以根据音频的长度生成任意时长的影片,并且保持角色身份的一致性。此外,EMO 是一个純視觉解决方案,無需XML(可拓展标記语言)和系統元資料,操作范围不受限制,支持多应用操作,并配備多种視觉感知工具用于操作定位。
EMO 能够透過输入單一的参考圖像和声音音频,如說话和唱歌,生成具有表现力的影片,其中的嘴型还可以与声音匹配。这表明 EMO 能够處理任意语音和圖像输入,支持任意语速和圖像,从而實现高度个性化的影片内容生成。
EMO的框架分為两大部分:在“帧编碼”阶段,使用 ReferenceNet 从参考圖像和动作帧中提取特征。接下来,在“擴散过程”阶段,先进的音频编碼器處理音频資料,結合面部区域遮罩和多帧噪声进行面部圖像的生成。EMO采用的 Backbone Network 内置了两种關键的注意力机制:Reference-Attention 和 Audio-Attention,分别用于维護角色的身份特征和调節其动作。此外,透過时间模块调整动作速度,确保动態的連貫性。
当我们想要制作一个能够根据声音生成有表情的影片时,EMO的工作可以分為两个主要阶段:
- 帧编碼阶段:首先,我们让一个名為ReferenceNet的工具从一張参考圖片和一些动作帧中提取特征。这些特征可以帮助我们更好地理解参考圖片和动作。
- 擴散过程阶段:接着,我们需要處理声音資料。我们使用一个先进的工具来處理声音,然后結合面部区域的遮罩和一些噪声,生成面部圖像。EMO中的Backbone Network有两种重要的注意力机制:Reference-Attention和Audio-Attention。这些机制帮助我们保持角色的身份特征并调節他们的动作。此外,还有一个时间模块,用来调整动作的速度,确保影片中的动作連貫流畅。
在擴散过程阶段中,EMO透過音频到影片的合成过程生成具有表现力的肖像影片。透過这些步驟,EMO能够實现音频和影片之间的無缝結合,生成具有丰富表情和頭部姿势的影片内容。
数据评估
本站ai工具百寶箱提供的阿里EMO都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai工具百寶箱实际控制,在2025年10月14日 上午12:27收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai工具百寶箱不承担任何责任。
