次次次世代くらいのVOCALOIDの作り方

注意:このエントリは音声合成のことなどほとんど知らない人間が書いています。突っ込み歓迎。

さて、2009年現在の音声合成って基本的には「声の音波の加工と切り貼り」だ。それが原因で不自然さが際立ってる面がある。

日本語の音と音の繋がりの不自然さは、これで解消できる

結論から書くと 擬似喉を作ってそれに発声させれば良い ということ。

  1. 人間の発声に関わる肉体構造をモデル化し、発声の動作をソフトウェアでシミュレートできるようにする(これを『擬似喉』と呼ぶ*1
  2. 音量、音程、発音、その他諸々のパラメタ指定を、擬似喉の制御信号へと変換するプログラムを作る
  3. 擬似喉が制御信号通りに動いた結果として音波(声)を発生させる

わざわざ擬似喉の動作をシミュレートすることによって、ある音が次の音へと変化する際の、ほんの僅かな「音が変化していく部分」を余さず発声させることができる。

擬似喉の各筋力の収縮・弛緩速度の上限値を設定しておくことが重要。筋力リミッターを強くすれば舌足らずな感じに、リミッターを外せば、前人未到の早口言葉も可能。また、声道の形を変えれば声質を変えることもできる。

テキスト読み上げの時の音の高低の不自然さは、これで解消できる

日本語の発音は音の強弱じゃない、音の高低にある。現代の音声合成は、音の高低についても違和感がありすぎる。

対策は3つ。

  1. 歌わせる
  2. 単語ごとの高低データベースを持つ
  3. 単語の繋がりによる高低変化の推測を行う

1つ目の対策は「歌限定だろ?初音ミクだろ?」と思われる向きもあるかもしれないが、実は違う。ニュースでも日記でもどんな文章でも歌うように、ミュージカルのように、いや、大西ライオンのように歌い上げればいいのだ!

「心、配、ないさ〜〜〜〜」

これで高低に関する違和感はほぼ解消できる(ただし文章の意味を取りづらくなる)。

それは冗談として、他2つの対策は現在でも既にあるだろう。

実現性はどうなんですか

擬似喉モデルを作ること、そして擬似喉の制御(ユーザーが指定した通りに発声できるように制御すること)は、どちらもかなり大変かもしれない。

だが、実現不可能だとは思わない。どこかの大学や研究所や企業では、喉のモデルぐらい作っていることだろう。もしかしたら声質の編集や、発声のシミュレートも既に自由にできるかもしれない。

参考:沖電気 - 声の種類と発声のしくみ

沖電気レベルまで分かってたらもうかなり作れそう。

まとめ

擬似喉モデルが音声合成のブレイクスルーになる*2

*1:発声は喉だけの問題じゃないけどな。

*2:既にあったらごめん