SONY

映像・音楽コンテンツに、新たな感動と楽しみ方を。

音源分離×エンタテインメント

いろいろな音が混ざった音源から特定の音を取り出す音源分離のAIは、デバイスやアプリに採用されてユーザーに大きな利便性を提供しています。さらに、クラシック映画の音声を蘇らせ、新しいカラオケ配信サービスを生み出すなど、エンタテインメントというフィールドでもさらにその可能性を拡げています。

光藤 祐基/原口 竜也/高島 芳和

光藤 祐基(写真左) ソニーグループ株式会社
R&Dセンター Tokyo Laboratory 21 担当部長
Distinguished Engineer

原口 竜也(写真中央) 株式会社ソニー・ミュージックエンタテインメント
EdgeTechプロジェクト本部 本部長

高島 芳和(写真右) ソニー・ピクチャーズ エンタテインメント
エンタテインメントイノベーション&テクノロジーグループ
テクノロジーデベロップメント バイス・プレジデント
アドバンストテクノロジー

低演算、低遅延、高リアルタイム性の実現。

光藤:通常、「音源分離」には多くの演算量を要すると思われているかもしれませんが、我々はこれを低演算でコンパクトにすることに注力してきました。もちろん、「音」というものは繊細なものですから簡単ではありません。さらに低演算とともに、低遅延、高リアルタイム性を特長としています。その成果のひとつが2020年に発売されたXperia 1Ⅱの「インテリジェントウィンドフィルター」です。例えばこれまで、野外で動画を撮ろうとする場合、風切り音がうるさいため風防付きマイクが必要でした。しかし、本体に搭載された風切り音除去機能により、Xperia 1Ⅱひとつで屋外での動画撮影が可能になります。他にも、主にBtoB向けのスマートフォンインカムアプリ「Callsign」にも人の声と周囲の騒音を分離する音源分離技術が採用されました。

クラシック映画が3Dオーディオで蘇る。

高島:私がAIによる音源分離に出会ったのは2018年夏。ちょうど、旧作映画の音声を3D化する作業に行き詰まっていたときで、第一印象は「これならいける!」でした。翌年には最初の商用プロジェクトとして、世界的な名作『ガンジー』や『アラビアのロレンス』への音源分離の活用が始まり、2020年の6月に4K Ultra HD版として海外で発売しました。これらのタイトルでは、3D音響効果が楽しめるようになっています。4Kソフトをお求めになるお客様は皆様3D音響リミックスにも大きく期待しておられますので、おかげ様で高い評価をいただいています。まさにAIが、過去の作品の価値を再び高めたと言えます。

4K UHD版『アラビアのロレンス』や『ガンジー』などが収録された「コロンビア・クラシックス・コレクションVOL.1」。
*⽇本での発売は未定です。

光藤:これまでは主に音楽作品の音源分離をやってきました。一方、映画にはいろいろな音、効果音が入っており、データを収集し、学習させ、仕上げるのは全く新しいチャレンジでした。でもそのおかげで、音源分離技術は活用の範囲を大きく広げたのです。『アラビアのロレンス』は1962年の映画。これほど古い音源を扱ったことはありませんでした。他にも文化遺産のようになっていて、現代のフォーマットにできないと考えられている作品はたくさんあります。今回のプロジェクトでは、過去の資産の価値を高められるという音源分離の新しい可能性に気付き、それを実現できました。

高島:私たちはこれまで、音声の分離をいわば手作業でやっていました。プロジェクトに関わるサウンドクリエイターやエンジニアたちは、「AIにそんなことができるものか」と最初は懐疑的でした。しかし今では逆に、困ったことがあれば「AIを活用できないか」と相談をしてくれるようになりました。例えば、映画撮影現場での録音中に混じってしまった飛行機や車の騒音・壁からの反響音等を消すのは難しい作業ですが、AIを使ってより効率的に処理できるような取り組みを始めています。また新作映画の場合、まず英語版の映画を作った後、吹き替え版をつくる際に手作業で人の声を抜き取っています。その作業をAIが手助けできるようになれば本当に助かります。クリエイターたちが、AIによるサポートのお蔭でよりクリエイティブな仕事にたっぷりと時間を割けるようにできれば素晴らしいですね。

新しいカラオケ体験をスマートフォンで。

原口:LINE MUSICでは2020年8月より「カラオケ機能」を実装しました。楽曲からボーカルを消して再生することとユーザーの歌声を音源にミックスして再生させることでカラオケさながらの体験を提供しています。通常のカラオケでは専用の音源が用意されるのですが、このサービスではCDと同じ原盤の演奏で歌うことができます。LINE MUSICのスタッフが新機能に使えそうな技術を探していたときに、ソニーにAIを活用した音源分離技術があることを知り、このサービスの実現に至ったのです。
*LINE MUSIC株式会社は、LINE株式会社と、ソニー・ミュージックエンタテインメントを含む国内音楽事業会社3社の共同出資企業。定額制オンデマンド型音楽配信サービス「LINE MUSIC」を展開中。

光藤:スマートフォンでリアルタイムに動作させることが、技術的に大きな壁でした。Xperia™だけならまだしも、他社のスマートフォンでも動かないといけません。さらには、既に普及している数年前のスマートフォンでも動作させなければいけませんから、仕様検討にはかなり苦労しました。

原口:サーバー側でボーカルを抜いた曲を生成して配信するのではなく、ユーザーがアプリを操作してボーカルをオフにする方式です。この方式により、理論上は配信されているすべての楽曲でカラオケを楽しめることになります。従来のカラオケと比較しても圧倒的な曲数です。既に台湾のLINE MUSICでも同じ機能の提供が始まっています。この機能は今後さらに世界中に広がっていくことでしょう。

光藤:従来のカラオケとは異なる新しいエンタテインメントの提案にも一役を果たせたと思っています。そして何よりユーザーの反応が楽しみです。これまで、「歌いたかったけどカラオケがなかった」という曲まで自由に歌えるようになるのですから。

学習のためのデータがあり、パフォーマンス向上に活かせる。
ソニーグループだからこそのシナジーがAIの発展を加速。

光藤:高性能な音源分離のAIを開発するのに必要な音源がソニーグループ内には豊富に存在していることが、とても役立っています。とはいえ、AI用のデータセットとして存在しているわけではありませんから、そこにも技術的な努力が必要です。これには、音楽の制作や権利処理にブロックチェーンやAIを活用している音楽制作プラットフォーム「Soundmain(サウンドメイン)」のチームと一緒に取り組んでいます。そしてソニーグループのシナジーがAIの発展に大きく寄与している理由は、高島さんや原口さんのようにグループ各社の中にテクノロジー利活用に前向きに取り組んでいる人がいるからです。そういう方々がR&Dのメンバーとの理想的なブリッジとなっているのです。今後も、いろいろな会社の方々と新しい価値を生み出していきたいですね。

このページの先頭へ