作者: 呆兔17K 时间: 2024-04-26
阿里云宣布自研EMO模型上线通义App,用照片加音频生成唱歌视频。EMO:阿里研发的AI肖像视频生成系统,以单图+音频创造表情生动、头部动作丰富的视频。现已免费上线通义App,支持选模板、传照片合成表演视频。首批80多模板含热门歌曲、网络热梗。特点:音频驱动、高逼真度、无缝帧过渡、身份保持、稳健控制、灵活时长、跨语言与风格。
通义App新闻详情
EMO(EmotePortraitAlive),是由阿里巴巴集团智能计算研究院研发的一个音频驱动的AI肖像视频生成系统。该系统能够仅凭借一张参考图像与一段语音音频,创造出包含丰富表情与多样头部动作的视频内容。
今日,阿里云宣布通义实验室研发的AI模型——EMO已在通义App正式上线,并向全体用户免费开放使用。用户现在可选择歌曲、网络热梗或表情包模板,在上传个人肖像照片后,利用EMO功能合成表演歌唱的趣味视频。
通义App首批上线了超过80款EMO模板,涵盖热门歌曲如《上春山》、《野狼Disco》,以及网络流行语“钵钵鸡”、“回手掏”等,但目前尚不支持用户自定义音频上传。
EMO的主要特性包括:
-音频驱动的视频生成:EMO能够直接依据输入的音频(如语音或歌声)实时生成对应视频,无需依赖预先录制的视频片段或复杂的3D面部模型。
-高表现力与逼真度:生成的视频具备极高的表情表现力,精准捕捉并重现人类面部细微表情变化,包括微妙的微表情,以及与音频节拍同步的头部动作。
-无缝帧过渡:EMO确保视频帧之间过渡自然平滑,有效避免面部失真或帧间晃动现象,显著提升整体视频质量。
-身份保持:通过FrameEncoding模块,EMO能够在生成过程中始终保持角色身份一致性,确保角色形象与输入的参考图像完全吻合。
-稳健的控制机制:系统采用速度控制器与面部区域控制器等稳定化技术,强化视频生成过程的稳定性,防止生成过程中出现崩溃等问题。
-灵活的视频时长:EMO可根据输入音频的长度自适应生成任意长度的视频,赋予用户充分的创意自由度。
-跨语言与跨风格:EMO的训练数据集覆盖了中文、英文等多种语言,以及现实主义、动漫、3D等多种风格,使其能够适应不同文化和艺术风格的需求。
0