近年のゲーム製作やデジタルキャラクターを用いたコンテンツでは、決められた台詞ではない、自由対話が求められている。それに伴い、音声合成技術による自然な声が求められている。本セッションでは、ゲームで求められる自然な声を実現する音声合成技術の要件をまとめ、実際にそれらを実装するための手法について説明する。
具体的には
(1) 声の素を作る:キャラクターのさまざまな声のトーンを再現するために、トーン別の音声を収録、機械学習(Hidden Markov Model, HMM)を実施。一人のキャラクター向けに複数の声の素を作成する。
(2) 韻律転移を活用、多様な表現を作る:細やかな音声表現を音声合成技術で実現するため、必要となる抑揚データを韻律転移機能搭載の調整ツールを活用して作成する。
(3) 生音声と合成音の差異の軽減:生音声と合成した音声を同時に使いたいが、音質の差異が気になる、という課題を解消するために活用する手法を説明する。
(4) 作成した表現の再活用:多様な表現の素になる抑揚データは複数の声の素に対して適用することが可能、同じ抑揚をもった異なる音声を作成することができる。
上記の点を実際のゲームへの応用のポイントと、デモの実演によって説明する。また技術の詳細として活用した機械学習について説明する
講演資料
- CEDEC_TTS_lecture_YMiyake_2021_8_24_3.pdf
- CEDEC2021_TDSL_ver.0827_CEDiL.pdf
※資料のダウンロードにはログインが必要です。
講演者プロフィール
三宅 陽一郎
2004年よりデジタルゲームにおける人工知能の開発・研究に従事。スクウェア・エニックス・AI&アーツ・アルケミーCTO、立教大学大学院人工知能科学研究科特任教授、九州大学客員教授、東京大学客員研究員。人工知能学会理事・シニア編集委員、日本デジタルゲーム学会理事、芸術科学会理事、IGDA日本ゲームAI専門部会チェア。単書『人工知能のための哲学塾』 『人工知能のための哲学塾 東洋哲学篇』『人工知能の作り方』『ゲームAI技術入門』『なぜ人工知能は人と会話ができるのか』『<人工知能>と<人工知性>』『人工知能が「生命」になるとき』。共著『高校生のためのゲームで考える人工知能』『ゲーム情報学概論』『FINAL FANTASY XVの人工知能』
《講演者からのメッセージ》
音声インターフェース、特に感情を持ったキャラクターとの音声インタラクションは、新しいゲームのコントローラーです。本セッションは、感情を表現したキャラクターボイスを作るチャレンジングな試みとなりますが、そのノウハウをお伝えできれば幸いです。よろしくお願いいたします。
倉田 宜典
‘96年ソニー株式会社入社
エンターテイメントロボット「aibo」や二足歩行ロボット「QRIO」などの開発に携わったのち
音声対話技術の企画開発業務に従事、
スマートプロダクト「XperiaEarDuo」や
対話型デスクトップロボット「Xperia Hello!」の企画/技術開発リーダー
また、ソニーミュージックが提供する「めざましマネージャー」シリーズや、
バーチャルアナウンサー「沢村碧」の発案/開発などを担当、一貫してキャラクター音声合成に興味を持つ。
‘20年東芝デジタルソリューションズ入社
クリエーター向けの新しい音声合成ツールの企画/事業開発を担当。
《講演者からのメッセージ》
音声合成の技術の進歩によって機械っぽさが減ってきて、様々なところで活用される事例が増えてきておりますが、ゲームやクリエイティブの現場での利用はまだまだこれからといった状況です。今回スクウェア・エニックスさんとともに、様々な演技要素の入った音声を合成する試みを実践的に行いましたので、その結果をご報告させていただきます。まだまだ粗削りな技術領域ですが、作る人、使う人の目線に立った技術開発/ご説明を心掛けておりますので、忌憚のないコメントを頂戴できればありがたいです。