無性にVOCALOIDを進化させたいので

そういう仕事をしているわけでもありませんが。無性に。

この素片ですが、
「子音→母音」の単位や、
「母音→子音」の単位で、
データベース化されていることが多いです。

日本語の場合は母音が5で子音が20くらいですから、
200種類くらいのデータベースが少なくとも必要です。
でも、実際にはそう単純でもなく、中間の音なども考慮します。

この素片接続法(子音と母音の繋がった断片を使って音声を合成する方法)は、正に自分が「もっとこうやればすごいVOCALOIDができるはずなのに!」と妄想してたのと似てるんだけど、これって既に一般的な手法だったのか…なんて恥ずかしい。

頭を切り替えて。

VOCALOID向上の施策を妄想する

初音ミクがこの素片接続法を使った上で今の完成度なのだとしたら、次に打つ手は何かあるのだろうか?音程や音の長さの推測は、音声の使用目的が「歌」である以上無視できるとしてー。

  • 短期的な対策:開発側チューニング=デフォルトの調教レベルの向上

現在各ユーザーが、できるだけ自然に聞こえるようにと苦心して調教してる部分を、もう少し開発側で負担する。楽にかつ自然に聞こえることを目指してデフォルトの調教を頑張る。究極的には、歌詞と譜面だけで「おおすごい!人が歌っているようだ!」と思えるような状態がゴール。

と言っても、初音ミクの後継バージョンである鏡音リン・レンの歌声が、先代と比較してもそれほど自然さが向上したようには思えない(むしろ不自然になった部分もあるかも?という)ところを見ると、やっぱり自然に聞こえるためのチューニングなんて、今のままではほぼ不可能なんだろうなと思う。

  • 短期〜中期的な対策:歌声合成ノウハウの蓄積

歌に特化した素片の構築、接続方法、その他ノウハウの蓄積。

歌い手が変わると(喉の構造が同じではない以上、音声の波形も変わるから)理想的な素片の切り取り方やくっつけ方が違ってくるはず。そうなると調整項目が増えてしまうため、なかなか『自然さ』が向上していかないことも十分考えられる。そこで歌い手を固定すれば、当座のノウハウ向上&自然さ向上のためにはかなり有効だと思うけど、消費者達が飽きてしまうかな?

また究極的には、歌い手が誰であろうとも「おおすごい!本人が歌っているようだ!」と思えるような状態がゴールだと思うので、歌い手固定は諸刃の剣なのかもしれない。

課題を解決するための技術(シーズ)が無いならお金を投資して作る。企業よりも大学の研究室などと組むのが良さそうに感じるが根拠はない。近年さほど進化が見られない分野なら、なおさら『若者の脳に託すのが良い』と思っているのかもしれない。

抜本的な対策に繋がるかもしれない疑問も考えてみた。

疑問1:人が初音ミクのモノマネができない理由は?

人間が初音ミクのモノマネをするのって不可能に近いと思うのだけど、それは何故なんだろう?この原因がわかれば、また一歩、音声合成が自然な音声に近づけると思う。って、それぐらい開発者や研究者は考えてる(或いは既に答えを知ってる)よね。

疑問2:“単語区切り”に可能性はないのか?

細切れの音の素片を「自然に聞こえるように接続する」のは難しいようだ。

だったら、単語単位で録音しておいて接続するのはどうなんだろうか。(阿久女イクでおなじみ(おなじみ!?)の手法だ。実際の使用例。)厖大な単語音声データベースが必要になるけど、基本単語DBはDVD-ROMで提供するとして、拡張部分はネット上で単語の要望を集めて、ランキング上位から歌声担当さんが録音して、ユーザーの必要に応じてダウンロードしてDBに追加できるようにしていくとか。

単語の途中で音程を変えるのって難しいのかな?最近では声の速度を変えても音程を変えない技術があるのだから、あとはどの部分がどの音に該当するのか?が、ある程度特定できれば、なんとかなりそうに思うのだけどなぁ。これまた専門家に聞いてみたい。

あ、はてなに聞いてみr

疑問3:自然な発音の学習を機械にやらせられないか?

  1. 決められた単語の音声を機械が合成する
  2. 自然な発音に近づいたか否かを人間が判定する
  3. 結果を受けて音の繋ぎ方を強化あるいは修正して1に戻る

みたいな。んで判定できる機械ができたら、機械vs機械で学習しまくり。

とりとめがなくなったので以上!