アカウント名:
パスワード:
初音ミクかどうかはどうでもよくて、スピーチ向けの合成音声ソフトに進歩してほしいというのが私の意見です。そして現状の合成音声を巡る状況は、合成音声で盛り上がっていても、スピーチ向けソフトの性能向上にあまり関心が向いている人がいないように見えるのが意外かつ残念、というのが私の愚痴の主旨です。
なので、結び付ければいい、とか、結び付けるべきという発想はありません。まあ、今のように初音ミク人気が圧倒的な状態では、スピーチ向けのソフトを出すとしたら初音ミクを無視することが出来ない以上、結果的に結び付いてしまう可能性は高いでしょうが…。
業務用の音声合成はコーパスベースですでに実用的な品質が得られるので、これ以上性能向上の話は進まないと思います。 テキストを音声に変換して対象者に意思を伝達することが目的なら、別に音源の変調で最初からスピーチ用の音声を合成しなくても、音声辞書を持って自然な接続ができるように調整するコーパスベースの処理ではダメなんでしょうか?
有名なところではHOYAサービス(旧ペンタックス)のVoiceText [voicetext.jp]があります。導入の経緯は特殊ですが、テレビ東京の『もやもやさまぁ~ず2』のナレーションでも活躍中です。抑揚の品質はともかく、声自体の音質はテレビ放送に耐えられるだけの品質があります。 この製品の出力はそんなに調教しなくても品質が高いので、(少なくとも案内放送の)ナレーターの仕事を奪いかねないのではないかと思うところです。
どうしても辞書向け容量が取れなかったり処理エンジンの性能が稼げない場合はゆっくり声ことAquesTalk [a-quest.com]がありますが、その場合は要求される品質もそれなりということがありますが…。
確かに初音ミク歌唱の科学的意味より、キャラが先行している現状はちょっと違和感がありますが、別に初音ミクが音声合成分野のアイコンである必要はないと思います。
事務用、補助用では、確かに現状の合成音声で実用十分だと思います。現状の、とは言っても、それこそ2、30年前の合成音声と比べて、プロセッサとメモリが進歩した分、音質やリアルタイム性が良くなったものの、モヤモヤした発音や抑揚の不自然さはあいかわらず残っている感じですが…。
で、実用品としてのレベルはすでに十分だと言うことは分かっているんですが、率直に言ってそれでは萌えるには不十分なのです。もちろん、たどたどしい合成音声だから萌えるのだ、という視点があるのは百も承知で言いますが。
なので、スピーチ向け合成音声にはもっと自然な発音を実現して欲しいなぁと思ってるんですが、初音ミクが合成音声技術のアイコンになってしまっている現状では、キャラクタービジネスとして初音ミクで十分金になるだろ、となって終わってしまいそうなのが怖いです。
テクノロジーは人間が仕事しなくて済むように発達しているはずなのに「仕事を奪う」とか表現しちゃう日本人の社畜根性は異常# セットで収入も奪われてしまうのが問題なわけだが> 音声合成分野のアイコンどっちかというとアイドル(偶像的な意味で)
テクノロジーは人間が仕事しなくて済むように発達しているはずなのに「仕事を奪う」とか表現しちゃう日本人の社畜根性は異常# セットで収入も奪われてしまうのが問題なわけだが
テクノロジーは人間が「危険な・(単純繰り返しなど)人間的でない」仕事をしなくて済むように発達している…というのなら分かるんだけど。 声のお仕事って、ニュースでも、バスの停留場案内テープでも、事実と共に人の気持ちを少しでも伝える仕事だし、しかも感覚特性からして、品質にシビアな仕事でもあるので、アナウンスはまずプロフェッショナルを雇うことを考え、それがダメなら社内で訓練した者、それも難しい(昼夜問わず音声情報が発生するなど)ということになって機械音声の出番になるのが普通じゃないかと思うのだが…。 それと普通は後段の収入問題とセットで考えるので、「何が言いたいのやら」ということになる。
あと、「仕事を奪う」と表現するのが「社畜」と罵られるほどワシはマゾヒストじゃないので。(どういう論理かは自分で考えよう。ヒント:ワシなら「さてはローソの回し者だな」と書く。)
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」
ある程度、情報を追われているなら… (スコア:1)
Re:ある程度、情報を追われているなら… (スコア:1)
初音ミクかどうかはどうでもよくて、スピーチ向けの合成音声ソフトに進歩してほしいというのが私の意見です。そして現状の合成音声を巡る状況は、合成音声で盛り上がっていても、スピーチ向けソフトの性能向上にあまり関心が向いている人がいないように見えるのが意外かつ残念、というのが私の愚痴の主旨です。
なので、結び付ければいい、とか、結び付けるべきという発想はありません。まあ、今のように初音ミク人気が圧倒的な状態では、スピーチ向けのソフトを出すとしたら初音ミクを無視することが出来ない以上、結果的に結び付いてしまう可能性は高いでしょうが…。
コーパスベースではダメなんですか? (スコア:2)
業務用の音声合成はコーパスベースですでに実用的な品質が得られるので、これ以上性能向上の話は進まないと思います。
テキストを音声に変換して対象者に意思を伝達することが目的なら、別に音源の変調で最初からスピーチ用の音声を合成しなくても、音声辞書を持って自然な接続ができるように調整するコーパスベースの処理ではダメなんでしょうか?
有名なところではHOYAサービス(旧ペンタックス)のVoiceText [voicetext.jp]があります。導入の経緯は特殊ですが、テレビ東京の『もやもやさまぁ~ず2』のナレーションでも活躍中です。抑揚の品質はともかく、声自体の音質はテレビ放送に耐えられるだけの品質があります。
この製品の出力はそんなに調教しなくても品質が高いので、(少なくとも案内放送の)ナレーターの仕事を奪いかねないのではないかと思うところです。
どうしても辞書向け容量が取れなかったり処理エンジンの性能が稼げない場合はゆっくり声ことAquesTalk [a-quest.com]がありますが、その場合は要求される品質もそれなりということがありますが…。
確かに初音ミク歌唱の科学的意味より、キャラが先行している現状はちょっと違和感がありますが、別に初音ミクが音声合成分野のアイコンである必要はないと思います。
Re:コーパスベースではダメなんですか? (スコア:1)
事務用、補助用では、確かに現状の合成音声で実用十分だと思います。現状の、とは言っても、それこそ2、30年前の合成音声と比べて、プロセッサとメモリが進歩した分、音質やリアルタイム性が良くなったものの、モヤモヤした発音や抑揚の不自然さはあいかわらず残っている感じですが…。
で、実用品としてのレベルはすでに十分だと言うことは分かっているんですが、率直に言ってそれでは萌えるには不十分なのです。もちろん、たどたどしい合成音声だから萌えるのだ、という視点があるのは百も承知で言いますが。
なので、スピーチ向け合成音声にはもっと自然な発音を実現して欲しいなぁと思ってるんですが、初音ミクが合成音声技術のアイコンになってしまっている現状では、キャラクタービジネスとして初音ミクで十分金になるだろ、となって終わってしまいそうなのが怖いです。
Re: (スコア:0)
テクノロジーは人間が仕事しなくて済むように発達しているはずなのに「仕事を奪う」とか表現しちゃう日本人の社畜根性は異常
# セットで収入も奪われてしまうのが問題なわけだが
> 音声合成分野のアイコン
どっちかというとアイドル(偶像的な意味で)
Re:コーパスベースではダメなんですか? (スコア:1)
テクノロジーは人間が「危険な・(単純繰り返しなど)人間的でない」仕事をしなくて済むように発達している…というのなら分かるんだけど。
声のお仕事って、ニュースでも、バスの停留場案内テープでも、事実と共に人の気持ちを少しでも伝える仕事だし、しかも感覚特性からして、品質にシビアな仕事でもあるので、アナウンスはまずプロフェッショナルを雇うことを考え、それがダメなら社内で訓練した者、それも難しい(昼夜問わず音声情報が発生するなど)ということになって機械音声の出番になるのが普通じゃないかと思うのだが…。
それと普通は後段の収入問題とセットで考えるので、「何が言いたいのやら」ということになる。
あと、「仕事を奪う」と表現するのが「社畜」と罵られるほどワシはマゾヒストじゃないので。
(どういう論理かは自分で考えよう。ヒント:ワシなら「さてはローソの回し者だな」と書く。)