akiraaniの日記: CeVIOでHANASU
1月の超次元跳躍放送アゲマンで、CeVIOでつくったあっかりーんパロボイスが採用されていい気になったので、いろいろ作っている。次の放送は今週末の土曜日なので、できた分だけでいいから今日中に投稿してしまおう。
で、そこそこ時間をかけてセリフのイントネーションを調整するという作業をやってみたわけですが、CeVIOのメリットと限界がだいぶ見えてきました。
CeVIOには感情というパラメータがあって、無料版にもあるさとうささらの場合は「元気」「普通」「怒り」「哀しみ」という4つのパラメーターの割合を変化させることで感情を表現することができます。これらのパラメータは既存の読み上げソフトにはないか、あっても別の種類の音源として収録されていて、普通は混ぜることができません。このおかげで、これまでにない幅広い感情表現が可能になっています。
逆に、このベースにない感情は表現できないわけです。既存のナレーションソフトに比べると感情表現に関して格段に優秀ではあるんですが、それでもやはり限界があります。特に、叫び声などのいわゆる張った声が再現できないのはけっこう困る場面が多いです。
ちなみに、有料版で追加されているつづみやタカハシにはささらとはパラメータが異なっています。とくにづづみさんは「照れ」と「クール」しかなくて、感情表現のバリエーションはかなり限られます。隠れマルコフモデルの性質上、感情ベースの種類は今後追加は可能なはずなので、アペンドに期待したいところ。
IRCでHANASU職人にCeVIOを使ってみた感想を聞いてみたことがあるんですが、CeVIOでも細かいイントネーションまで調整しようと思えばHANASUとさしてかわらない手間がかかるよ、という話でした。確かに、イントネーションの調整はだいぶ慣れが必要でそれなりに手間がかかります。
というか、慣れというか、必要なのは実は音感なのではないかと思います。音楽的な意味での音感とは若干違いますが、パラメータに反映して、再生したときに言わせたかった音とどこがどれくらい違うのかを聞き分ける音感です。
CeVIOのインタフェースは、UTAUやVocaloidのように周波数でかっちり上下がわかるような設定ではなく、絶対基準が音によって異なっています。このため、パラメータをいじっては耳で聞いて確認し、ここは高い、ここが低いと分析して調整する必要があります。
もちろん、こういうセリフはこういうパターンになる、というような経験則はあるわけですが、それも聞き分けが正確にできてこそです。まあ、この辺はHANASUでもできてないことには話にならないんでしょうが、CeVIOでは特にそれがより顕著になる気がします。
まだまだ声優の代わりには程遠いですが、それでもSofTalkやVOICELOIDに比べて格段に感情表現が豊かであることは確かなわけで、極めてみる価値のあるソフトだなぁとは思います。
関連エントリ:CeVIO+MMDの可能性
CeVIOでHANASU More ログイン