今天早上,GitHub上突然冒出一个让AI圈炸锅的项目——腾讯开源的HunyuanVideo-Avatar。
这是一个开源的视频生成工具,上传一张图+一段音频,就能让图中的人物、动物甚至虚拟角色“活”过来,开口说话、唱歌、演相声!
连爱因斯坦和奥黛丽·赫本都能被AI“复活”同台说相声,这类工具其实之前就有,那腾讯这次开源的HunyuanVideo-Avatar有什么魅力呢,一起来看看?
一、你的照片会“演戏”
HunyuanVideo-Avatar的核心逻辑就像个“数字人导演”,它能从一张静态图中读懂场景,再根据音频的情感让角色动起来。而这一切的秘密武器,藏在三个模块里:
1、告别AI生成的“网红脸”!
传统模型容易生成“千人一面”的角色,而腾讯用这个模块直接把你的照片“刻”进模型里。能精准保留原图细节,连衣服褶皱和背景光影都保持一致。
2、让AI听懂你的“情绪密码”!
普通语音驱动只能对口型,但这个能从音频里提取情感特征,再结合参考图生成细腻表情。
3、多人飙戏不串场!
看Demo,视频中两个角色的唇形、表情、手势完全独立,连互动时的眼神交流都自然得像真人演员。
二、创意可以成真
HunyuanVideo-Avatar可以在这些场景应用:
电商直播:上传商品图+促销文案,AI主播24小时在线带货,还能根据“限时秒杀”的台词做出夸张表情,做有血有肉的主播,刺激用户下单。
音乐平台:QQ音乐用这个模型让王力宏的AI分身实时“唱”新歌,酷狗的长音频绘本里虚拟人用童声讲故事,全民K歌甚至能让你上传自拍生成专属MV。
影视创作:导演只需画一张场景草图+旁白脚本,就能生成分镜动画。
三、什么配置能跑?
目前官方测试显示,至少要RTX 3090,才可流畅生成720p视频,而A100显卡能输出电影级画质。