パスワードを忘れた? アカウント作成

NTT、デジタル分身を低コストで生成するための技術開発」記事へのコメント

  • 数分~10分程度の音声から、再現度の高い声

    これをコナン君で例えると、毛利小五郎の声をあらかじめ10分程度録音しておけば、蝶ネクタイで滑らかに喋れるって話ね。

    ただ、MicrosoftがやってるVALL-Eや、そこからフォークしたVALL-E Xだと、ゼロショット学習で必要な(毛利小五郎の)声は5秒と謳われている。
    デモページがあるんだけど、
    https://plachtaa.github.io/#japanese-cross-lingual [github.io]

    一番下の(おそらく)日本のギャルゲから抜き出したの3~4秒の音声から合成音を作ってるデモが特に衝撃的だった。

アレゲは一日にしてならず -- アレゲ見習い

処理中...