2025年4月2日
音の価値と可能性を広げる技術に挑む。クリエイターが力を発揮できる仕組みづくりとは
2025年4月6日より開催される、音響、音声、信号処理に関する国際会議『ICASSP(アイキャスプ)』は今回で50回目を迎えます。ソニーグループのDistinguished Engineerである光藤祐基が執筆にかかわった論文は、本学会に加えて、AI(人工知能)の主要学会である『ICLR』や『CVPR』などにおいて、多数の採択実績があります。音源分離技術の変遷と、現在の取り組み、今後の挑戦について話を聞きました。
▶音源分離に関する過去記事はこちら
「AIによる音源分離——クラシック映画の音声がAIで蘇る」
-
光藤 祐基
ソニーグループ株式会社
株式会社ソニーリサーチ
Distinguished Engineer
「音源分離」の課題を克服し、活用の幅を広げたい
──学生時代はどのようなことを学んでいたのでしょうか
情報理工学を専攻していました。現在でいうマシンラーニングという分野に非常に近い領域ですね。選んだテーマは「音楽」。当時、私自身が楽曲を制作したり、ライブハウスのブッキングで演奏したりと音楽活動に本格的に取り組んでいたことから、このテーマを選びました。最初に取り組んだのは自動採譜(トランスクリプション)という技術で、音楽信号から譜面情報を取り出す、というものでした。
その後、音楽事業を手がける会社で技術開発にチャレンジしたいと考え、ソニーに入社しました。
──ソニー入社後どのような仕事に携わりましたか? また、ご自身の転機になった取り組みなどがあれば教えてください。
入社後、オーディオ製品向けのサウンド技術を担当することになり、『DSEE』や『LDAC』などの技術にも関わりましたが、一方でエンタテインメント領域にもっと直接的にかかわってみたいという気持ちはずっとありました。その想いをより強くしたのがフランス留学での出来事です。
2011年、私はフランス国立音響音楽研究所(IRCAM)に留学しました。本研究所は、研究者だけではなく音楽家も育てる場となっていて、双方が関わり合いながら、音楽の発展に向けてさまざまな研究が行われていました。
私もそこで音の研究に取り組んでいるときに、改めて気づかされたのが、音楽や会話を活用しようとした際、ボトルネックになっているのが「音源分離」。通常、情報処理の対象となる信号は複数の信号が混ざってしまっているため、音声認識や曲の解析が難しく、信号処理を行った先にあるさまざまな活用の障害になっていたのです。
たとえば、当時流行りはじめていたイマーシブコンテンツ(没入感を促すコンテンツ)。音楽でイマーシブな体験をつくりだすためには、ボーカルやピアノ、ドラム、ギターといった各音源に対し、音量や配置を個別に処理していくことが理想です。しかし、当時は今ほど個々の音源を分離する技術の精度が高くなかったため、音源ごとに収録されていない楽曲からボーカルや楽器の音を分離することは非常に困難でした。
そこで、もしこの技術をより良いものとして実現できれば、エンタテインメントに貢献できるのではないかと思い、本格的に取り組み始めました。そこから今につながっています。
いち早くディープラーニングを導入
──そもそも「音源分離」というのは今日までどのように発展してきたのでしょうか。
音源分離は、1990年代ぐらいから取り組まれており、当初はカクテルパーティー効果※1をマシンで実現するにはどうすればいいか、といった点などについて、機械学習技術を用いて研究されていました。2000年から2010年代前半に、非負値行列因子分解(Nonnegative Matrix Factorization)という手法によって、音源分離の可能性が一気に引き上げられていったのです。
そして本領域の転機になったと私が考えているのが、2013年に開催されたICASSPでのGeoffrey Everest Hinton氏が行った基調講演です。彼は、今でいうAIにつながるディープラーニングの基礎を築いた人物。講演では、ディープラーニングを用いることで、従来の画像認識や音声認識の精度を飛躍的に高めることができる、ということが示されたのです。
会場に収まりきらないほどの聴衆のなかで、その話を聞いた私は「これは来るな」と確信しました。もちろん、この期待は会場の誰もが抱いたはずです。しかし、あのときにこの技術を音源分離に使おうと、いち早く取り組みはじめたのは私たちだったと思います。これが、今もなお、音楽の音源分離技術においてソニーがアドバンテージを持てている大きな要因の一つです。
その後は、ディープラーニングをベースに音源分離技術を作り替えて、国際的なコンペティションであるSignal Separation Evaluation Campaign (SiSEC)に臨みました。ディープラーニングを実装しているのが私たちしかおらず、正直不安ではありましたが、結果圧倒的な1位を獲得することができました。他の参加者もディープラーニングを取り入れてからはその差を縮められていったものの、結果3年連続で1位を獲得。さらには「Music Demixing Challenge 2021」や「Sound Demixing Challenge 2023」といったコンペティションを主催するなど、ソニーの音源分離のレベルの高さは、同領域のコミュニティにおいて広く知られるようになりました。
──実用化という点ではどうだったのでしょうか。
実際にプロの制作エンジニアに試してもらったのですが、最初は、世に出せるクオリティとは程遠い、という評価でした。アカデミックの世界でトップを獲った技術であっても、実用化へのハードルはまだまだ高かったのです。
そこから試行錯誤を繰り返し実現したのが、俳優の石丸幹二氏と、すでに亡くなられていたグレン・グールド氏がコラボレーションした『R.シュトラウス:イノック・アーデン』。過去の音源では、グレン氏のピアノと、当時の朗読音源がかぶって収録されていました。そこで朗読部分を分離し、新たに石丸氏による日本語朗読を掛け合わせることで、新しい作品へと生まれ変わったのです。
ほかにも過去の映画作品での実績も出ています。4K UHD版『アラビアのロレンス』や『ガンジー』は、この技術で抽出した音をソニー・ピクチャーズエンタテインメントのサウンドミキサーがドルビーアトモス方式で空間に再配置することで、臨場感のある音場を再現することにも成功しています。
音源分離という領域で、アカデミックな世界からチャレンジしてきて、私自身がずっとやりたかったエンタテインメントへの技術貢献という夢が叶ったという感じです。
一方で、クラシック音楽や映画などは、それぞれセクションごとに収録されていなかったり、音源が複雑だったりと、現在も高いハードルがあります。しかし、AIの進歩によって音声認識が、2011年ごろには無理だろうと言われていた水準に到達したことを考えると、こういった領域も近い未来に克服できるようになっていくと思います。
「音」の領域から
エンタテインメントの課題に取り組む
──音源分離以外にもAIを活用した技術に取り組まれているとのことですが、どのようなものがあるのでしょうか。
生成AIが注目されはじめた2020年ごろから、私たちはブラックボックス技術※2に頼らず、自分たちで生成モデル、つまり道具を開発することに力を入れはじめました。
実は、ブラックボックス技術を使っていると、結果的に開発が遅れる傾向にあると考えています。たとえば、拡散モデル(Diffusion model)で上手くアウトプットが出せない場合、なぜうまくいかないか、その原因はそのモデルをつくった人にしかわからない。やはり、道具の仕組みにきちんと精通していないと、その領域では後手に回ってしまうだろうということで、道具(拡散モデル)自体に力を入れるようにしたのです。
それが徐々にうまく回りだして、成果が出るようになってきたというわけです。
私たちのチームが開発した拡散モデルの強みは「高速生成」で、もともとは画像を生成する技術として私たちが開発してきたものを音にも応用。この速さは業界内でも強いアドバンテージがあると自負しています。数十回と行われる拡散処理におけるステップをできるだけ少なくしていくことで高速化を実現※3。さらに、その高速性を活かし「リアルタイム生成」にも取り組んでいます※4。たとえば、10秒音が流れている間に、次の10秒を生成する、というものです。これまでは、サウンドを生み出すのに多くの時間がかかっていましたが、これからは、人はマシンとのインタラクションによってそれをリアルタイムで実現できるようになると考えています。この研究成果に関する論文は、来月行われるICLR 2025で採択されています。
このように、拡散モデルの根幹部分を実際に扱えるようになったことで、脅威に対抗できる技術も実現できるようになってきました。
生成AIが適切なデータからの学習によって新しいものを生み出すならいいのですが、実際はメモライゼーション※5といって、学習データそのものが生成されたものに含まれてしまうことがあり、これは学習元となったデータを作成した人にとっての脅威です。それに対して、不正学習を検知する技術や、学習された後も消えないウォーターマーキングのようなものを仕込む技術などにも取り組んでいます。
──今後、どのようなことに取り組んでいきたいですか。
生成AIに関する課題は、さまざまなクリエティブの現場に影響を及ぼすようになっていきます。私が取り組みたいのは、多様な技術が生まれていくなかで、クリエイターに対して適切に利益が還元され、彼らの生活を脅かさないための仕組みづくりをすることです。さまざまなクリエイションが今後直面するであろう問題に対して、音の領域からアプローチできればいいなと考えています。
クリエイターが力を発揮できる環境をつくり、クリエイターに選ばれるような技術を手がけていくことで、魅力的なコンテンツが増え、多くの人が新しい映像や音楽を体験できるようになると思います。
注釈
※1:カクテルパーティー効果:騒がしい環境のなかでも、特定の音や言葉を聞き取ることができる現象
※2:ブラックボックス技術:詳しい原理や構造を理解せずに、機能や使い方のみを知っていれば利用し結果を出せる技術
※3:参照論文:Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion
※4:参照論文:SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation
※5:参照論文:Classifier-Free Guidance inside the Attraction Basin May Cause Memorization (本論文はCVPR 2025においても採択されている)
