数分~10分程度の音声から、再現度の高い声 (#4596329) | NTT、デジタル分身を低コストで生成するための技術開発

「NTT、デジタル分身を低コストで生成するための技術開発」記事へのコメント

記事ページを表示すべてのコメント取得

検索17コメント Log In/Create an Account

数分~10分程度の音声から、再現度の高い声 (スコア:1)

by Anonymous Coward on 2024年01月20日 7時25分 (#4596329)

数分~10分程度の音声から、再現度の高い声
これをコナン君で例えると、毛利小五郎の声をあらかじめ10分程度録音しておけば、蝶ネクタイで滑らかに喋れるって話ね。
ただ、MicrosoftがやってるVALL-Eや、そこからフォークしたVALL-E Xだと、ゼロショット学習で必要な（毛利小五郎の）声は5秒と謳われている。
デモページがあるんだけど、
https://plachtaa.github.io/#japanese-cross-lingual [github.io]
一番下の（おそらく）日本のギャルゲから抜き出したの3～4秒の音声から合成音を作ってるデモが特に衝撃的だった。
- Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)
  
  by 90 (35300) on 2024年01月20日 13時02分 (#4596441) 日記
  
  だいたいこういうの、下地のモデルがどれだけ自然かが出てる面が強くて、その数秒で似せられる範囲までしか似ないですよ。当たり前だけど。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    デモを聞いた上での感想がそれ？
    - Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)
      
      by 90 (35300) on 2024年01月20日 15時22分 (#4596488) 日記
      
      その返し、もちろん聞いた上でRVCとかと比べて切り捨ててますよって言われたらどう返すつもりなんです?
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        質問に質問で返すなとしか。
        
        Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)
        
        by 90 (35300) on 2024年01月20日 19時28分 (#4596563) 日記
        
        よかったですね。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        どこかで聞きかじった人が理解せずに再流通させているようだけど、それを言っていいのは目上の人だけだから。
        そもそも質問をするのが失礼なんだって理解すべき。
        最初に質問をした時点で他人の時間を自分のために使う失礼な人になったわけだから、たいていのことは我慢しなきゃならん。
        回答の仕方(回答のための再質問を含む)が気に入らんとか怒り出してはいけない。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  無許可で使っているであろうエロゲの抽出音声（キャラ名言ってるので作品もわかる）は日常シーンだけど、濡れ場でどうなるか気になる
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    無許可で使っているであろうエロゲの抽出音声（キャラ名言ってるので作品もわかる）は日常シーンだけど、濡れ場でどうなるか気になる
    別に一発作成しなくちゃいけないわけでなし
    濡れ場音声学習させてから好みの音声化してやればいいだけなんじゃないかな
    # まぁ濡れ場のシーンや盛り上がり度を動的に1フレ遅延以内で合わせるにはまだスペック足りんのだろうけれど

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

NTT、デジタル分身を低コストで生成するための技術開発 More ログイン

「NTT、デジタル分身を低コストで生成するための技術開発」記事へのコメント

数分~10分程度の音声から、再現度の高い声 (スコア:1)

Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)

Re: (スコア:0)

Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)

Re: (スコア:0)

Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

スラド