MidJouneyやStable Diffusionによる画像生成AIや、GPTなどの大規模言語モデル(LLM)による対話型テキスト生成AIなど、AI技術の発展や実利用が広がるなか、ゲームやアニメ・映画制作における効果音制作においても、今後はAI技術の活用が見込まれます。我々は、Stable Diffusionの一部やGPT等で使われている系列変換モデルTransformerを用いて、擬音的な発話音声のみから効果音合成する手法について研究しています。文字列や言語の音素に依存しない手法であり、微妙な表現にも対応できることを確認しています。本インタラクティブセッションでは、学習済モデルを用いた爆発音合成例を示すのと、その場で自身の擬音的発話による爆発音合成を体験してもらいます。
講演者プロフィール
平# 重行
オージス総研、イメージ情報科学研究所、KRIなどを経て現職。子供の頃からプログラミング(主にゲーム作りなど)とピアノ演奏や電子楽器いじりなどしてきた延長線上で、インタラクティブで楽しい・面白い実世界指向なシステム、コンテンツ作品制作のためのツール作りなどをしています。CEDECでは過去に浴槽をUIとしたシステムをインタラクティブセッションで展示したり、家の様々な場所をUIとする技術とゲーム開発者との関係などについて講演しています。本セッションを含む様々な研究プロジェクトについては、研究室Webサイト http://hir.ai/lab をご覧ください。
名前は平#と平♯と平井どれも使います。
Twitter: @shigeyuki_hirai
Facebook: shigeyuki.hirai
LinkedIn: shigeyukihirai
《講演者からのメッセージ》
ゲームやアニメ、映画などで利用する効果音を人の声を基にAIが音響合成する技術の研究成果について、爆発音を具体事例としてインタラクティブセッションでデモ展示します。技術的背景や詳細内容は、別途講演するショートセッションで紹介しますが、このデモでは、いろいろな爆発音の合成例を聞いていただくほか、実際に来場者の方にも頭でイメージした爆発音を口真似してもらい、その音声を基にした爆発音をその場で合成します。ぜひ爆発音の口真似をしに、そしてそれによる合成音を聞きに、ブースまでお越しください!
滝沢 力
深層学習技術を用いた音声から効果音合成を合成する研究を行っております。
幼いときによく、兄や友人とジェダイごっこや戦いごっこをしてました。その時から効果音を口で表現するのが得意で、その能力を現在取り組んでいる研究に役立てています。
Twitter:@takizawa_riki
《講演者からのメッセージ》
合成する効果音として爆発音に焦点を当てて取り組んできました。提案したモデルは、爆発音を表現した音声をよりリアルな爆発音へ変換します。用意した合成例はもちろん、来ていただいた方にも是非、口まねを行ってもらい、自身の声が爆発音に変換される様子を体験してください。