コンピュータ・シミュレーションによる音声研究
私たちの生活に欠かせない音声を対象とした研究は古くから行なわれていますが、現在においてもわかっていないことがたくさんあります。例えば、私たちの声は人によって違うわけですが、声を出す過程でどの部分でその違いが生じのるか、あるいは、人間の声らしさを決定づけているのはどの部分なのかなどについては、まだすべてが解明されていません。これらの解明を難しくしている理由として、音が目に見えないこと、自然な発話状態で口の中(声道と言います)に測定機器を入れて音の測定をするのが困難なことなどが挙げられます。そこで、私の研究室ではコンピュータを使用して発声過程を模擬(シミュレーション)する方法で音声の研究を行なっています。
シミュレーション手法には有限要素法(Finite Element Method, FEM)という手法を用いています。この手法は、要素と呼ばれる三角形や四角形などの形状で解析対象領域を分割し、分割されたそれぞれの要素内で方程式を組み立て、それら全ての和をとった全体の方程式を解くことで近似解を得る手法です。音の伝わる様子を表現する方程式があるのですが、口の中の形状はとても複雑で、そのままではこの方程式を解くことができません。FEMは複雑な形状を三角形などの簡単な形状に分割して計算するので、口の中のような複雑な形状でも近似的に方程式を解くことが可能になります。
以下の動画は40cmの長さの矩形パイプの中を伝搬する音波をFEMでシミュレーションした結果です。左端を正弦波で励振開始後、徐々に定在波が形成されるのがわかります。
発声過程を模擬するためには声道形状が必要です。声道形状の取得には磁気共鳴映像法(Magnetic Resonance Imaging, MRI)という手法で体の断層画像を撮像する機器を使います。MRIは非侵襲で、CTのように被爆する恐れがないので音声の研究ではよく利用されています。図1は撮像された画像の一例です。このような2次元断層画像を、声道全体をカバーするように複数枚撮像し、立体化するソフトウェアを使用して合成することで3次元の声道形状モデルを作成します。立体化の例を動画で示します。
図2は3次元の声道形状モデルの一例です。この声道形状モデルを用いてFEMでシミュレーションを行なった結果の一例を図3に示します。この図は声道内の音のエネルギー流をベクトルで表示したものです。色の違いでエネルギー流の大きさを表現しています。この図のように、いままで目にすることが難しかった音の伝わる様子を視覚化することで、声道のどの部位が音を特徴付けているのかを推察することができます。このような研究成果を生かして、まるで人間が話していかのようにコンピュータに喋らせることを目指して研究を進めています。
図1: MR画像の一例 | 図2: 3次元形状モデル | 図3: シミュレーション結果 |
---|
以下の動画は、声帯を励振した時の声道内を伝搬する音波の時間変化をFEMでシミュレーションした結果です。鼻腔がある場合と無い場合で音の伝搬する様子が変わる事が確認できます。
私の作成した3次元声道形状データを花王様の製品開発にご利用いただきました。
以下の動画は、 FDTD(時間領域差分)法で音波伝搬シミュレーションの計算をGPUで行いながら同時に、CPU側で可視化処理を行い、インタラクティブに視点を変えながら音の伝搬の様子を確認できるようにしたものです。
以下の動画は、舌の調音運動をFEMでシミュレーションした結果です。一つ目の動画は無重力状態から重力を与えた時の、二つ目の動画は一つ目の状態から母音/i/を想定した動きを、三つ目は二つ目の状態から母音/a/を想定した動きをシミュレーションしたものです。
無重力状態に重力を付加 | 母音/i/を想定した動き | 母音/a/を想定した動き |
---|