DALL·E 2や、MidJouney、Stable Diffusion等の画像生成AIや、GPTなどの大規模言語モデル(LLM)による対話型テキスト生成AIなど、AI技術の発展や実利用が広がるなか、ゲームやアニメ・映画制作における効果音制作においても、今後はAI技術の活用が見込まれます。我々は、GPT等の自然言語処理で主に使われている系列変換モデルTransformerを用いて、擬音的な発話音声*のみ*から効果音合成する手法について研究しています。文字列や言語の音素に依存しない手法であり、口真似での微妙な表現にも対応できることを確認しています。本セッションでは、Transformerの概要説明と、それをオーディオデータに適用する一手法と音合成技術について紹介します。そして、本研究で具体的な題材としている爆発音を対象とした効果音・擬音発話データセットと合成例を示します。さらに、人とAIがインタラクティブにサウンド制作する今後の制作プロセスについて考察します。
講演者プロフィール
平# 重行
オージス総研、イメージ情報科学研究所、KRIなどを経て現職。子供の頃からプログラミング(主にゲーム作りなど)とピアノ演奏や電子楽器いじりなどしてきた延長線上で、インタラクティブで楽しい・面白い実世界指向なシステム、コンテンツ作品制作のためのツール作りなどをしています。CEDECでは過去に浴槽をUIとしたシステムをインタラクティブセッションで展示したり、家の様々な場所をUIとする技術とゲーム開発者との関係などについて講演しています。本セッションを含む様々な研究プロジェクトについては、研究室Webサイト http://hir.ai/lab をご覧ください。
名前は平#と平♯と平井どれも使います。
Twitter: @shigeyuki_hirai
Facebook: shigeyuki.hirai
LinkedIn: shigeyukihirai
《講演者からのメッセージ》
自然言語や画像に比べ、音楽・音響の生成系AIはあまり注目されていませんが、世界中の研究者や開発者がいろいろと取り組んでいます。そのような中で、我々の研究室では、ゲームやアニメ、映画などの効果音制作に関する生成系AIの技術について研究しています。今回の講演では、その内容に関する理論的背景、AIの学習に用いるデータセットと共に、爆発音を事例に講演時点での成果を紹介します。AIがコンテンツを生成するだけではなく、人の想像力・創造力や、口真似できる能力を活用してAIと共に制作する概念を、皆さんと共有できれば幸いです。
滝沢 力
深層学習技術を用いた音声から効果音合成を合成する研究を行っております。
幼いときによく、兄や友人とジェダイごっこや戦いごっこをしてました。その時から効果音を口で表現するのが得意で、その能力を現在取り組んでいる研究に役立てています。
Twitter:@takizawa_riki
《講演者からのメッセージ》
多くの人が音をイメージして発話表現(口まね)することができることから、音声から効果音への変換を行う技術を提案しました。モデルの内容からデータセット、合成結果などについて発表させていただきます。
興味がある方は、ぜひインタラクティブセッションのブースにも足を運んでいただけたら幸いです。