・任意の歌入りの曲から、リアルタイムでボーカル成分を、効率よくきれいに抽出し、
採点機能付きカラオケを作るための基本要素を自動生成するプラグインを制作することを試みた。
・L-R法は除去はできるが抽出はできない。カラオケトラック援用法は素材がない場合は不可能等、現行の方法には問題がある。
・騒がしい曲でも、歌声だけは、はっきり聞こえてくるが、これは歌声が、「耳に心地よい=識別しやすい」音であると考えられる。
・この感覚的な概念を、定量化するため、複素空間調和振動解析(CVS-HA)という方法を考案した。
・具体的には、左右のチャンネルの波形をdftしたときに出力され、通常は捨てられる位相情報に着目した。
・ただ位相情報だけでは、分離性能が十分ではないので、BPM解析で得られたシンクロ情報を援用した。
・その結果、楽曲によって程度の差こそあれ、比較的きれいにボーカルと非ボーカル成分を分離抽出することができた。
・ただ残念ながら採点機能付きカラオケの教師データとして使用するためには、まだ精度が足りない状況である。
・2つに分離されたデータに、さらに効果的なフィルター処理を追加して、カラオケ教師データの自動生成や、
音楽を演奏しただけで、ゲーム中のキャラクターが口パクするなど、全く新しい演出ができるよう研究を続ける。
講演者プロフィール
増野 宏之
・広島大学理学研究科化学専攻修了
・大学在学中の1986年より、コトブキシステム→コンパイル→ズーム→サイクロンゼロ→アークシステムワークスを経て、2013年4月よりCRI・ミドルウェアに勤務。
・CEDEC2011,2012にて、リアルタイムBPM解析法/ダンスシーケンス自動生成法に関して講演。
・CEDEC AWARDS 2012にてリアルタイムBPM解析法が優秀賞を受賞。
25年にわたり、ゲーム制作現場側で仕事をしておりましたが、
このたび、音と映像のミドルウェア提供という、新しいお仕事をさせていただくことになりました!
音楽と英語がわかるプログラマーとして、日々勉強の毎日です。