次次次世代くらいのVOCALOIDの作り方

注意：このエントリは音声合成のことなどほとんど知らない人間が書いています。突っ込み歓迎。

さて、2009年現在の音声合成って基本的には「声の音波の加工と切り貼り」だ。それが原因で不自然さが際立ってる面がある。

結論から書くと 擬似喉を作ってそれに発声させれば良い ということ。

わざわざ擬似喉の動作をシミュレートすることによって、ある音が次の音へと変化する際の、ほんの僅かな「音が変化していく部分」を余さず発声させることができる。

擬似喉の各筋力の収縮・弛緩速度の上限値を設定しておくことが重要。筋力リミッターを強くすれば舌足らずな感じに、リミッターを外せば、前人未到の早口言葉も可能。また、声道の形を変えれば声質を変えることもできる。

日本語の発音は音の強弱じゃない、音の高低にある。現代の音声合成は、音の高低についても違和感がありすぎる。

対策は3つ。

1つ目の対策は「歌限定だろ？初音ミクだろ？」と思われる向きもあるかもしれないが、実は違う。ニュースでも日記でもどんな文章でも歌うように、ミュージカルのように、いや、大西ライオンのように歌い上げればいいのだ！

「心、配、ないさ〜〜〜〜」

これで高低に関する違和感はほぼ解消できる（ただし文章の意味を取りづらくなる）。

それは冗談として、他2つの対策は現在でも既にあるだろう。

擬似喉モデルを作ること、そして擬似喉の制御（ユーザーが指定した通りに発声できるように制御すること）は、どちらもかなり大変かもしれない。

だが、実現不可能だとは思わない。どこかの大学や研究所や企業では、喉のモデルぐらい作っていることだろう。もしかしたら声質の編集や、発声のシミュレートも既に自由にできるかもしれない。

沖電気レベルまで分かってたらもうかなり作れそう。

擬似喉モデルが音声合成のブレイクスルーになる*2。

*1:発声は喉だけの問題じゃないけどな。

*2:既にあったらごめん