视频生成进入“全能”时代

1月29日，Skywork AI正式开源自研视频生成模型SkyReels-V3。作为一系列多模态视频生成模型，该系列支持参考图像转视频（Reference Images-to-Video）、视频延长（Video Extension）和音频驱动虚拟形象（Talking Avatar）三大核心能力，在单一建模架构中实现高保真多模态视频生成，达到行业领先水平。

三大核心能力作为独立模块，每个模块深度优化且支持灵活组合。Skywork AI团队通过企业级数据处理、极速推理能力和高效的训练架构等技术实现，让生成的视频达到专业级效果，多项指标达到或超越行业领先水平。

SkyReels-V3可根据1至4张参考图像，并结合文本提示，生成时间连贯、语义一致的高质量视频序列。无论是人物形象、商品展示还是背景场景，生成的视频都能精准保留原始身份特征、空间构图和叙事连贯性。

其背后是Skywork AI团队在数据构建、多参考条件融合和混合训练策略上的多重技术创新：

1. 高质量数据构建：团队从海量视频中筛选具有显著动态运动的素材，并采用跨帧配对策略确保时间多样性。更为关键的是，利用图像编辑模型对主体区域进行提取、背景补全和语义重写，有效避免了常见的“复制粘贴”伪影，从数据源头保障了生成质量。

2. 多参考条件融合：模型采用统一的策略联合编码视觉和文本信息，最多支持4张参考图像。这意味着用户无需进行复杂的图像拼接或手动蒙版，即可实现复杂多主体、多元素的自然交互与场景组合。例如，在电商场景中，可将商品图与虚拟主播形象结合，直接生成一段在特定环境下的带货视频，精准保留商品细节与主播身份特征。

3. 混合训练策略：团队利用图像-视频混合训练，联合利用大规模图像和视频数据集，且利用多分辨率联合优化提升不同空间尺度和宽高比的鲁棒性。

在包含200对混合测试集（涵盖电影电视、电商、广告等多领域）的评估中，SkyReels-V3展现出卓越的性能表现。

面对人物、动物、物体和背景场景等多种参考类型，SkyReels-V3在参考一致性指标上达到0.6698，超越Vidu Q2（0.5961）、Kling 1.6（0.6630）和PixVerse V5（0.6542）等主流商用模型；在视觉质量指标上更以0.8119的得分领先全场，证明了其在保持参考特征的同时生成高保真视频的强大能力。

视频生成进入“全能”时代

news.detail.related

vLLM团队官宣创业：融资1.5亿美元，清华特奖游凯超成为联创

MiniMax Music 2.5: 格莱美级创作，不再需要录音棚

20 亿美元收 Q.ai，苹果想让你「无声」地控制 AI