アカウント名:
パスワード:
寡聞にして知らなかったのだが、以前の技術として参照されているWaveNetが驚きだ。 https://techcrunch.com/2016/09/09/googles-wavenet-uses-neural-nets-to-... [techcrunch.com] https://deepmind.com/blog/wavenet-generative-model-raw-audio/ [deepmind.com]
特に後半の、目標テキストなしで生成させた音声が、息継ぎや舌打ちの音の感じが生々しい。この音声は意味のない発音らしく、英語ネイティブ話者にとって「馬鹿げた」感じに聞こえるらしいが、非ネイティブな俺には完全に、どこかの外国人がリラックスして私的な会話をしてるのを録ったのか、マイク下手だなぁ舌打ち音入って
やっぱ日本語は難しいのかなあ市場規模が小さいから優先順位が低いのかもしれないけど、Macやスマホの合成音声聞いても微妙なもの多い人語と区別つかなくなったらなったで専ら犯罪に使われるんじゃないか?とか思っちゃうが…
不自然でない日本語読み上げなら2000年くらいに沖電気が売ってたSMARTTALKが良かった。最近の読み上げソフトのサンプルを聞いてもあれに勝ってないような。個人向けパッケージでは小さい会社が作ってて品質がイマイチ、大きい会社が作ってるのはサービス組み込み向けの業務用ソリューションになっちゃってる。年数がたつほど良いものが出るという感じではなく、良い物があったらその時買っとかないとすぐ開発中止になって消え去ってしまうという感じですね。
後が続かないのは技術の蓄積ができないからで、方向性が間違ってるから、と言い換えることもできる。プログラマ的に言うと同じコードを二度書くのを厭わないから、非効率的なことを延々とやってる。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ見習い
参照されてるWaveNetが凄いんだが (スコア:4, 参考になる)
寡聞にして知らなかったのだが、以前の技術として参照されているWaveNetが驚きだ。
https://techcrunch.com/2016/09/09/googles-wavenet-uses-neural-nets-to-... [techcrunch.com]
https://deepmind.com/blog/wavenet-generative-model-raw-audio/ [deepmind.com]
特に後半の、目標テキストなしで生成させた音声が、息継ぎや舌打ちの音の感じが生々しい。
この音声は意味のない発音らしく、英語ネイティブ話者にとって「馬鹿げた」感じに聞こえるらしいが、
非ネイティブな俺には完全に、どこかの外国人がリラックスして私的な会話をしてるのを録ったのか、マイク下手だなぁ舌打ち音入って
Re: (スコア:0)
やっぱ日本語は難しいのかなあ
市場規模が小さいから優先順位が低いのかもしれないけど、Macやスマホの合成音声聞いても微妙なもの多い
人語と区別つかなくなったらなったで専ら犯罪に使われるんじゃないか?とか思っちゃうが…
Re: (スコア:1)
不自然でない日本語読み上げなら2000年くらいに沖電気が売ってたSMARTTALKが良かった。
最近の読み上げソフトのサンプルを聞いてもあれに勝ってないような。
個人向けパッケージでは小さい会社が作ってて品質がイマイチ、大きい会社が作ってるのはサービス組み込み向けの業務用ソリューションになっちゃってる。
年数がたつほど良いものが出るという感じではなく、良い物があったらその時買っとかないとすぐ開発中止になって消え去ってしまうという感じですね。
Re:参照されてるWaveNetが凄いんだが (スコア:0)
後が続かないのは技術の蓄積ができないからで、方向性が間違ってるから、と言い換えることもできる。プログラマ的に言うと同じコードを二度書くのを厭わないから、非効率的なことを延々とやってる。