腾讯开源的HunyuanVideo-Avatar上传一张图+一段音频，虚拟角色“活”过来_金融财经

创始人

2025-06-04 12:39:49

0次

今天早上，GitHub上突然冒出一个让AI圈炸锅的项目——腾讯开源的HunyuanVideo-Avatar。

这是一个开源的视频生成工具，上传一张图+一段音频，就能让图中的人物、动物甚至虚拟角色“活”过来，开口说话、唱歌、演相声！

连爱因斯坦和奥黛丽·赫本都能被AI“复活”同台说相声，这类工具其实之前就有，那腾讯这次开源的HunyuanVideo-Avatar有什么魅力呢，一起来看看？

一、你的照片会“演戏”

HunyuanVideo-Avatar的核心逻辑就像个“数字人导演”，它能从一张静态图中读懂场景，再根据音频的情感让角色动起来。而这一切的秘密武器，藏在三个模块里：

1、告别AI生成的“网红脸”！

传统模型容易生成“千人一面”的角色，而腾讯用这个模块直接把你的照片“刻”进模型里。能精准保留原图细节，连衣服褶皱和背景光影都保持一致。

2、让AI听懂你的“情绪密码”！

普通语音驱动只能对口型，但这个能从音频里提取情感特征，再结合参考图生成细腻表情。

3、多人飙戏不串场！

看Demo，视频中两个角色的唇形、表情、手势完全独立，连互动时的眼神交流都自然得像真人演员。

二、创意可以成真

HunyuanVideo-Avatar可以在这些场景应用：

电商直播：上传商品图+促销文案，AI主播24小时在线带货，还能根据“限时秒杀”的台词做出夸张表情，做有血有肉的主播，刺激用户下单。

音乐平台：QQ音乐用这个模型让王力宏的AI分身实时“唱”新歌，酷狗的长音频绘本里虚拟人用童声讲故事，全民K歌甚至能让你上传自拍生成专属MV。

影视创作：导演只需画一张场景草图+旁白脚本，就能生成分镜动画。

三、什么配置能跑？

目前官方测试显示，至少要RTX 3090，才可流畅生成720p视频，而A100显卡能输出电影级画质。