视频生成进入“全能”时代

news.detail.category:AI资讯news.detail.publishTime:2026-02-02 16:07:47news.detail.viewCount:227

1月29日,Skywork AI正式开源自研视频生成模型SkyReels-V3。作为一系列多模态视频生成模型,该系列支持参考图像转视频(Reference Images-to-Video)、视频延长(Video Extension)和音频驱动虚拟形象(Talking Avatar)三大核心能力,在单一建模架构中实现高保真多模态视频生成,达到行业领先水平。

三大核心能力作为独立模块,每个模块深度优化且支持灵活组合。Skywork AI团队通过企业级数据处理、极速推理能力和高效的训练架构等技术实现,让生成的视频达到专业级效果,多项指标达到或超越行业领先水平。

SkyReels-V3可根据1至4张参考图像,并结合文本提示,生成时间连贯、语义一致的高质量视频序列。无论是人物形象、商品展示还是背景场景,生成的视频都能精准保留原始身份特征、空间构图和叙事连贯性。

其背后是Skywork AI团队在数据构建、多参考条件融合和混合训练策略上的多重技术创新:

1. 高质量数据构建:团队从海量视频中筛选具有显著动态运动的素材,并采用跨帧配对策略确保时间多样性。更为关键的是,利用图像编辑模型对主体区域进行提取、背景补全和语义重写,有效避免了常见的“复制粘贴”伪影,从数据源头保障了生成质量。

2. 多参考条件融合:模型采用统一的策略联合编码视觉和文本信息,最多支持4张参考图像。这意味着用户无需进行复杂的图像拼接或手动蒙版,即可实现复杂多主体、多元素的自然交互与场景组合。例如,在电商场景中,可将商品图与虚拟主播形象结合,直接生成一段在特定环境下的带货视频,精准保留商品细节与主播身份特征。

3. 混合训练策略:团队利用图像-视频混合训练,联合利用大规模图像和视频数据集,且利用多分辨率联合优化提升不同空间尺度和宽高比的鲁棒性。

在包含200对混合测试集(涵盖电影电视、电商、广告等多领域)的评估中,SkyReels-V3展现出卓越的性能表现。

面对人物、动物、物体和背景场景等多种参考类型,SkyReels-V3在参考一致性指标上达到0.6698,超越Vidu Q2(0.5961)、Kling 1.6(0.6630)和PixVerse V5(0.6542)等主流商用模型;在视觉质量指标上更以0.8119的得分领先全场,证明了其在保持参考特征的同时生成高保真视频的强大能力。