パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」」記事へのコメント

  • by minet (45149) on 2018年01月01日 1時49分 (#3338689) 日記

    寡聞にして知らなかったのだが、以前の技術として参照されているWaveNetが驚きだ。
    https://techcrunch.com/2016/09/09/googles-wavenet-uses-neural-nets-to-... [techcrunch.com]
    https://deepmind.com/blog/wavenet-generative-model-raw-audio/ [deepmind.com]

    特に後半の、目標テキストなしで生成させた音声が、息継ぎや舌打ちの音の感じが生々しい。
    この音声は意味のない発音らしく、英語ネイティブ話者にとって「馬鹿げた」感じに聞こえるらしいが、
    非ネイティブな俺には完全に、どこかの外国人がリラックスして私的な会話をしてるのを録ったのか、マイク下手だなぁ舌打ち音入ってるじゃんよ、と思ってしまった。

    極めつけは最後のピアノだ。
    え?これAIに作曲させた楽譜を自動ピアノか何かで演奏させたんじゃなくて、音声データそのものを生成してるの!?
    打鍵の感じから残響まで再現できてるじゃん!!?

    もちろん、多数の生成結果から不自然さの少ないものが掲載されているということは考えられるが、それにしても凄い。

    • by Anonymous Coward

      これもDeepMindか。Googleは良い買い物をしたの。

    • by Anonymous Coward

      やっぱ日本語は難しいのかなあ
      市場規模が小さいから優先順位が低いのかもしれないけど、Macやスマホの合成音声聞いても微妙なもの多い
      人語と区別つかなくなったらなったで専ら犯罪に使われるんじゃないか?とか思っちゃうが…

      • by Anonymous Coward on 2018年01月01日 10時19分 (#3338720)

        不自然でない日本語読み上げなら2000年くらいに沖電気が売ってたSMARTTALKが良かった。
        最近の読み上げソフトのサンプルを聞いてもあれに勝ってないような。
        個人向けパッケージでは小さい会社が作ってて品質がイマイチ、大きい会社が作ってるのはサービス組み込み向けの業務用ソリューションになっちゃってる。
        年数がたつほど良いものが出るという感じではなく、良い物があったらその時買っとかないとすぐ開発中止になって消え去ってしまうという感じですね。

        親コメント
        • by Anonymous Coward

          後が続かないのは技術の蓄積ができないからで、方向性が間違ってるから、と言い換えることもできる。プログラマ的に言うと同じコードを二度書くのを厭わないから、非効率的なことを延々とやってる。

      • by Anonymous Coward

        ボカロとかに応用できないかな…

        • by Anonymous Coward

          ディープラーニングではないですが、CeVIOは読み上げ、歌ともに隠れマルコフ連鎖を元データから学習して作っていて、ボカロなどのサンプリングベースとは違う手法のようですね。

          読み上げの場合アクセントの情報が必要になるので、完全に辞書を廃するのは難しいようですが。

          • by Anonymous Coward

            HMMは20年前の技術だからなぁ。いまそれを選択する理由があるのかという。
            ここ20年、音声再生、音声認識は研究レベルでまったく進歩が無かったと聞いているので、今後の動きに期待。

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

処理中...