音声合成ソフトを進化させるかもしれない2つの要素

以下、不勉強の上に妄想全開でお送りしています。ツッコミ歓迎です。

初音ミク全盛のこの時代だが、未だに

　「たまねぎたべたい」

という音声を機械的に合成しようと思って

　「TA MA NE GI TA BE TA I」

という文字単位の発音を繋げても、あまり自然には聞こえない。そこで！

（英語の発音は“強弱”だが）日本語の発音は“高低”にある*1。

そこで、『前の音と比較して、次の音の音程がどのくらい上がるか下がるか』というのを、単語ごとにデータベース化したらどうだろうか？

　た ↑ま　→ね　↓ぎ

とか

　た　↑べ　→た　↓い

という具合に。

これがあれば、あとは単語の頭の音（たまねぎで言えば「た」）の音階を決めるだけで、自然な「た↑ま→ね↓ぎ」が発音できるのではないか？重要なのは、音の高低なのだから！

音程の話とは、また別の件として。

「たまねぎ」→「TA＋MA＋NE＋GI」じゃなくて、

「たまねぎ」→「TA＋AMA＋ANE＋EGI」という切り分けをする。子音を母音で挟むのである。こうすることで、文字と文字の繋ぎは（再生と音程をうまくすれば）自然な発音に近くなると思う。録音するべき『音の素材数』は増えてしまうけど。

これでかなり自然な発音が実現すると思っているのだけど、実際はどうなんでしょう？音声合成の専門家の意見を聞いてみたいです。すごく馬鹿にされそうで怖いけど。

あとクリプトンさんも、鏡音リンに続くVOCALOID第三弾を作る前に、ちょっと検討してみませんか！？音の切り方について！開発会議に呼んで！（あり得ねーかー）

文字ではなく単語ごとに音声を録ればこんなに自然な発音になるんですが、それはまたさらに別の話。しかしエロってやつは、人類を進歩させるなぁ…。

*1:ということを、伊坂幸太郎の小説で読みました。確かにその通りだ！