ニューラルネットワークを用いた音声信号によるリップシンク(口パク生成)技術

タグ:
日時:
2019年09月05日(木)16時30分〜17時30分
形式: レギュラーセッション(60分)
受講スキル:
・AI技術を用いたデジタル信号処理に興味のあるサウンドプログラマー。 ・声の特性をより理解したいサウンドクリエーター。
受講者が得られるであろう知見:
・音声信号(ボイス)の解析手法。 ・発声の仕組みと音声情報との関係性。 ・音声信号からの音韻情報の認識手法。 ・音声信号からの口を動かすための手法。 ・AI技術(ニューラルネットワーク)を用いた音声解析及びリップシンク(口パク生成)技術。
セッションの内容

声に合わせてキャラクタの口を動かすことで、親近感を向上することができます。しかしなら、大量のセリフに対して手付けで口を動かすことは、その労力から困難です。
本セッションでは、音声から自動的に口の動きを生成する2つの手法を紹介します。
最初は、非常に軽量な「最尤エントロピー法」よってフォルマント周波数を抽出し、口の形状を推定する手法について解説します。
次にニューラルネットワークを用いて口の動きを推定する手法について説明します。音声特徴量を入力、口の形状を出力とするニューラルネットワークを作り、既存の音声データによって学習します。学習済みのニューラルネットワークを利用して、音声データから口の形状を推定します。従来の収録済みのセリフはもちろん、リアルタイム処理によってボイスチャットや生中継イベントへの活用できます。
これらの口パクの生成の手法について、デモンストレーションを交えながら解説します。


講演資料

  • CEDEC2019_ニューラルネットワークを用いた音声信号によるリップシンク技術.pdf

※資料のダウンロードにはログインが必要です。


講演者プロフィール

押見 正雄

押見 正雄
所属 : 株式会社CRI・ミドルウェア
役職 : 代表取締役社長

1987年 早稲田大学理工学部機械工学科卒。
同年  人工知能研究者としてCSK総合研究所(CRI)に入社。
1990~2001年
    セガサターン・ドリームキャストの映像・音声関連のシステムソフト開発に従事。
1995年 サウンドミドルウェア CRI ADXを開発、販売。
2001年 CRI・ミドルウェアの創業メンバーとして参画。
2013年 同社代表取締役就任。

音声・映像の技術が大好きなオヤジエンジニア。

《講演者からのメッセージ》
30年に渡り、様々な音声処理ソフトの開発を行って参りました。
キャラクタの口がセリフに合わせて動くと、キャラクタの親近感は非常に向上します。
音声に合わせて口を動かすには、大変な労力を要しますが、
音声を解析し口の形を推定することで、比較的簡単に口を動かすことができます。
音素認識は非常に難しい音声処理の分野ですが、ニューラルネットワークを利用することで口の形状の推定精度が向上しました。また、リアルタイムに口を動かすこともできるようになりました。
皆様のゲームの中のキャラクタがより生き生きと喋ることの一助になれば嬉しいです。

飯島 健太

飯島 健太
所属 : 株式会社CRI・ミドルウェア
部署 : 組込み事業部
役職 : エンジニア

2014年 千葉大学工学部画像科学科卒業。
同年  株式会社CRI・ミドルウェアへ入社。

遊技機向けミドルウェアや組込み機器向けミドルウェアの開発に携わる。
近年は音声信号処理関連の業務に従事。

《講演者からのメッセージ》
今日、様々な界隈でリアルタイムリップシンク活用の気運が高まっています。
しかしながら、音声信号のみを解析してリップシンク情報を生成するのは非常に難易度が高く、
多分野へ汎用可能なリップシンク技術を作り上げるためには入力特徴量の設計・推論モデルの設計・得られた結果の分析など、様々な知見が必要となります。
本セッションで得られる知見が、音声信号処理にご興味をお持ちの皆様のお役に立てば幸いです。

上田 賢次郎

上田 賢次郎
所属 : 株式会社CRI・ミドルウェア
部署 : 組込事業部
役職 : エンジニア

2013 年 早稲田大学 基幹理工学部 情報理工学科卒業
2015 年 早稲田大学大学院 基幹理工学研究科 情報理工学専攻卒業
同年 株式会社CRI・ミドルウェアに入社

大学・大学院在学中、統計的音声認識の研究を行う。入社後は「CRI 機械学習部」を立ち上げ勉強会を開催するなど、機械学習の布教に努める。近年では、口パク解析ミドルウェア「Clipper」の次世代版となる新製品の研究開発を行っている。

《講演者からのメッセージ》
近年目覚ましい成果を上げているニューラルネットワークですが、音声認識分野への適用については未だ様々な課題が残されています。中でも、口パクを解析するというタスクは前例が少なく、世の中にもノウハウがありません。私たちが数年間の研究で培ったノウハウを共有することで、音声認識分野の技術の発展の一助になれば幸いです。