AIで映像や音楽に命を吹き込むソニーの深層生成モデル

<概要>
ソニーの深層生成モデル技術を活用した
コンテンツ生成・修復
AIを活用してコンテンツの生成、修復を行うことのできる深層生成モデルと呼ばれる技術の開発を行っています。これは、画像や音声、テキストなどのコンテンツをAIにより自動で生成するメカニズムです。我々は、大規模な生成モデルの開発に取り組んでおり、より少ない計算資源で、高いクオリティの生成を実現する独自の手法を開発しました。またこの技術を活用した、クリエイターのための新しいメディア修復技術を紹介します。
<開発責任者>
-
瀧田 雄太
ソニーグループ株式会社
R&Dセンター -
Chieh-Hsin Lai
ソニーグループ株式会社
R&Dセンター
<特長>
- 効率的なデータの圧縮法を学習する手法であるVector-Quantized Variational Auto Encoder (VQ-VAE)はこれまで多くの生成タスクで活用されていますが、安定的に学習させることが難しく、良いデータの圧縮法を見つけるためには多くの試行錯誤が必要です。私たちはVQ-VAEの学習を向上させ、一度の学習で安定に学習できる手法として、Stochastically Quantized VAE (SQ-VAE)を開発しました。
提案するSQ-VAEの概要
- 拡散モデルは、特に注目されている生成モデルで、ノイズを徐々に意味のあるデータに変換することでデータを生成します。
このモデルは拡散過程と呼ばれる物理現象と関連しているため、物理法則に基づく方程式を利用することで、ソニーはより高品質な生成結果をもたらす拡散モデルの新しい学習方法の開発に成功しました。
物理法則に基づく方程式を用いた新しい拡散モデルの学習法 : Score FPE
- 多くのAIを用いた修復技術では元の鮮明なデータと破損したデータのペアが必要ですが、このようなペアを用意するのは一般にコストがかかります。我々は、鮮明なデータのみで学習された生成モデルを用いて、追加学習無しにデータ修復を行う方法を開発しました。
生成モデルを用いたコンテンツ修復
<今後の展望>
今後、深層生成モデルのようなAI技術は、多くのコンテンツが生み出されていく音楽、映画、ゲーム業界において不可欠な存在となると考えています。私たちソニーのR&Dは、これらの業界において世界をリードする方々と直接仕事ができる機会を有しており、この可能性を最大限に活かす研究を行っていきたいと考えています。