ビデオ生成が「万能」時代に突入する。
1月29日、Skywork AIは自社開発のビデオ生成モデル「SkyReels - V3」を正式にオープンソース化しました。この一連のマルチモーダルビデオ生成モデルは、参照画像からビデオへの変換(Reference Images - to - Video)、ビデオの延長(Video Extension)、音声駆動のバーチャルアバター(Talking Avatar)という3つの核心機能をサポートし、単一のモデリングアーキテクチャで高忠実度のマルチモーダルビデオ生成を実現し、業界トップレベルに達しています。
3つの核心機能は独立したモジュールとして、それぞれのモジュールが深度に最適化され、柔軟な組み合わせが可能です。Skywork AIチームは、企業レベルのデータ処理、高速推論能力、効率的なトレーニングアーキテクチャなどの技術を通じて、生成されるビデオを専門レベルの品質にし、多くの指標が業界トップレベルに達し、またはそれを上回っています。
SkyReels - V3は、1~4枚の参照画像を元に、テキストプロンプトを組み合わせることで、時間的に連続し、意味的に一貫した高品質のビデオシーケンスを生成できます。人物像、商品展示、背景シーンなど、生成されたビデオは元のアイデンティティ特徴、空間構図、物語の一貫性を正確に保持します。
その背景には、Skywork AIチームがデータ構築、多参照条件の融合、ハイブリッドトレーニング戦略において行った多重の技術革新があります。
1. 高品質のデータ構築:チームは大量のビデオから顕著な動的運動を持つ素材を選別し、フレーム間のペアリング戦略を採用して時間的な多様性を確保します。さらに重要なのは、画像編集モデルを利用して主体領域を抽出し、背景を補完し、意味を再記述することで、一般的な「コピー&ペースト」の偽影を効果的に回避し、データの源から生成品質を保障しています。
2. 多参照条件の融合:モデルは統一的な戦略で視覚情報とテキスト情報を統合してエンコードし、最大4枚の参照画像をサポートします。これにより、ユーザーは複雑な画像の結合や手動によるマスク操作を行うことなく、複雑な多主体、多要素の自然な相互作用とシーンの組み合わせを実現できます。例えば、電子商取引のシーンでは、商品画像とバーチャルアナウンサーの画像を組み合わせて、特定の環境下での商品販売ビデオを直接生成でき、商品の詳細とアナウンサーのアイデンティティ特徴を正確に保持します。
3. ハイブリッドトレーニング戦略:チームは画像とビデオのハイブリッドトレーニングを利用し、大規模な画像とビデオのデータセットを統合して利用し、多解像度の統合最適化を行って、異なる空間スケールと縦横比に対するロバスト性を向上させています。
映画・テレビ、電子商取引、広告など多領域をカバーする200組のハイブリッドテストセットを含む評価で、SkyReels - V3は卓越した性能を発揮しました。
人物、動物、物体、背景シーンなどの多様な参照タイプに対して、SkyReels - V3は参照一致性指標で0.6698を達成し、Vidu Q2(0.5961)、Kling 1.6(0.6630)、PixVerse V5(0.6542)などの主流の商用モデルを上回りました。視覚品質指標では0.8119の得点でトップを占め、参照特徴を保持しながら高忠実度のビデオを生成する強力な能力を証明しました。


