学習ベースの自然な音声合成技術のキャラクターボイスの応用と実運用

タグ：

日時：

2021年08月24日(火)13時30分〜14時30分

形式： レギュラーセッション(60分)

受講スキル：

(1) キャラクターを音声合成で発話させることに興味を持つ方 (2) デジタルキャラクターの新しい応用の方向を模索される方 (3) RPGなどゲーム内のキャラクターの自動発話を検討されている方 (4) 音声合成のカスタマイズによる効果がわからないため悩まれている方 (5) 機械学習（HMM）による音声合成に興味のある方

受講者が得られるであろう知見:

(1) 声の素を作成する方法：キャラクターのさまざまな声のトーンを再現するために、トーン別の音声を収録し機械学習（HMM）にかける手法 (2) 多様な表現を作成する方法：SSMLタグ（音声合成調整用の汎用タグ）の調整では難しい音声表現を韻律転移を活用して短時間に作成する手法 (3) 生音声と合成音の違和感を軽減する方法：生音声と合成した音声を同時に使いたいという要望に対して、この２つのトーンを自然に接続する手法。 (4) 抑揚データを再活用する方法：抑揚データを豊富に準備することで、一定の素材から様々なバリエーションの音声を生成する手法 (5) 機械学習（HMM）による音声合成の手法

セッションの内容

　近年のゲーム製作やデジタルキャラクターを用いたコンテンツでは、決められた台詞ではない、自由対話が求められている。それに伴い、音声合成技術による自然な声が求められている。本セッションでは、ゲームで求められる自然な声を実現する音声合成技術の要件をまとめ、実際にそれらを実装するための手法について説明する。
　具体的には
(1) 声の素を作る：キャラクターのさまざまな声のトーンを再現するために、トーン別の音声を収録、機械学習（Hidden Markov Model, HMM）を実施。一人のキャラクター向けに複数の声の素を作成する。

(2) 韻律転移を活用、多様な表現を作る：細やかな音声表現を音声合成技術で実現するため、必要となる抑揚データを韻律転移機能搭載の調整ツールを活用して作成する。

(3) 生音声と合成音の差異の軽減：生音声と合成した音声を同時に使いたいが、音質の差異が気になる、という課題を解消するために活用する手法を説明する。

(4) 作成した表現の再活用：多様な表現の素になる抑揚データは複数の声の素に対して適用することが可能、同じ抑揚をもった異なる音声を作成することができる。

上記の点を実際のゲームへの応用のポイントと、デモの実演によって説明する。また技術の詳細として活用した機械学習について説明する

CEDEC_TTS_lecture_YMiyake_2021_8_24_3.pdf
CEDEC2021_TDSL_ver.0827_CEDiL.pdf

※資料のダウンロードにはログインが必要です。

三宅陽一郎

所属： 株式会社スクウェア・エニックス

部署： テクノロジー推進部

役職： リードAIリサーチャー

2004年よりデジタルゲームにおける人工知能の開発・研究に従事。スクウェア・エニックス・AI&アーツ・アルケミーCTO、立教大学大学院人工知能科学研究科特任教授、九州大学客員教授、東京大学客員研究員。人工知能学会理事・シニア編集委員、日本デジタルゲーム学会理事、芸術科学会理事、IGDA日本ゲームAI専門部会チェア。単書『人工知能のための哲学塾』『人工知能のための哲学塾東洋哲学篇』『人工知能の作り方』『ゲームAI技術入門』『なぜ人工知能は人と会話ができるのか』『＜人工知能＞と＜人工知性＞』『人工知能が「生命」になるとき』。共著『高校生のためのゲームで考える人工知能』『ゲーム情報学概論』『FINAL FANTASY XVの人工知能』

《講演者からのメッセージ》
音声インターフェース、特に感情を持ったキャラクターとの音声インタラクションは、新しいゲームのコントローラーです。本セッションは、感情を表現したキャラクターボイスを作るチャレンジングな試みとなりますが、そのノウハウをお伝えできれば幸いです。よろしくお願いいたします。

倉田　宜典

所属： 東芝デジタルソリューションズ株式会社

部署： ＩＣＴソリューション事業部リカイアス技術部

役職： 参事

‘96年ソニー株式会社入社
エンターテイメントロボット「aibo」や二足歩行ロボット「QRIO」などの開発に携わったのち
音声対話技術の企画開発業務に従事、
スマートプロダクト「XperiaEarDuo」や
対話型デスクトップロボット「Xperia　Hello!」の企画/技術開発リーダー
また、ソニーミュージックが提供する「めざましマネージャー」シリーズや、
バーチャルアナウンサー「沢村碧」の発案/開発などを担当、一貫してキャラクター音声合成に興味を持つ。
‘20年東芝デジタルソリューションズ入社
クリエーター向けの新しい音声合成ツールの企画/事業開発を担当。

《講演者からのメッセージ》
音声合成の技術の進歩によって機械っぽさが減ってきて、様々なところで活用される事例が増えてきておりますが、ゲームやクリエイティブの現場での利用はまだまだこれからといった状況です。今回スクウェア・エニックスさんとともに、様々な演技要素の入った音声を合成する試みを実践的に行いましたので、その結果をご報告させていただきます。まだまだ粗削りな技術領域ですが、作る人、使う人の目線に立った技術開発／ご説明を心掛けておりますので、忌憚のないコメントを頂戴できればありがたいです。