アカウント名:
パスワード:
数分~10分程度の音声から、再現度の高い声
これをコナン君で例えると、毛利小五郎の声をあらかじめ10分程度録音しておけば、蝶ネクタイで滑らかに喋れるって話ね。
ただ、MicrosoftがやってるVALL-Eや、そこからフォークしたVALL-E Xだと、ゼロショット学習で必要な(毛利小五郎の)声は5秒と謳われている。デモページがあるんだけど、https://plachtaa.github.io/#japanese-cross-lingual [github.io]
一番下の(おそらく)日本のギャルゲから抜き出したの3~4秒の音声から合成音を作ってるデモが特に衝撃的だった。
だいたいこういうの、下地のモデルがどれだけ自然かが出てる面が強くて、その数秒で似せられる範囲までしか似ないですよ。当たり前だけど。
デモを聞いた上での感想がそれ?
その返し、もちろん聞いた上でRVCとかと比べて切り捨ててますよって言われたらどう返すつもりなんです?
質問に質問で返すなとしか。
よかったですね。
どこかで聞きかじった人が理解せずに再流通させているようだけど、それを言っていいのは目上の人だけだから。そもそも質問をするのが失礼なんだって理解すべき。最初に質問をした時点で他人の時間を自分のために使う失礼な人になったわけだから、たいていのことは我慢しなきゃならん。回答の仕方(回答のための再質問を含む)が気に入らんとか怒り出してはいけない。
無許可で使っているであろうエロゲの抽出音声(キャラ名言ってるので作品もわかる)は日常シーンだけど、濡れ場でどうなるか気になる
別に一発作成しなくちゃいけないわけでなし濡れ場音声学習させてから好みの音声化してやればいいだけなんじゃないかな
# まぁ濡れ場のシーンや盛り上がり度を動的に1フレ遅延以内で合わせるにはまだスペック足りんのだろうけれど
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
日本発のオープンソースソフトウェアは42件 -- ある官僚
数分~10分程度の音声から、再現度の高い声 (スコア:1)
数分~10分程度の音声から、再現度の高い声
これをコナン君で例えると、毛利小五郎の声をあらかじめ10分程度録音しておけば、蝶ネクタイで滑らかに喋れるって話ね。
ただ、MicrosoftがやってるVALL-Eや、そこからフォークしたVALL-E Xだと、ゼロショット学習で必要な(毛利小五郎の)声は5秒と謳われている。
デモページがあるんだけど、
https://plachtaa.github.io/#japanese-cross-lingual [github.io]
一番下の(おそらく)日本のギャルゲから抜き出したの3~4秒の音声から合成音を作ってるデモが特に衝撃的だった。
Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)
だいたいこういうの、下地のモデルがどれだけ自然かが出てる面が強くて、その数秒で似せられる範囲までしか似ないですよ。当たり前だけど。
Re: (スコア:0)
デモを聞いた上での感想がそれ?
Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)
その返し、もちろん聞いた上でRVCとかと比べて切り捨ててますよって言われたらどう返すつもりなんです?
Re: (スコア:0)
質問に質問で返すなとしか。
Re:数分~10分程度の音声から、再現度の高い声 (スコア:2)
よかったですね。
Re: (スコア:0)
どこかで聞きかじった人が理解せずに再流通させているようだけど、それを言っていいのは目上の人だけだから。
そもそも質問をするのが失礼なんだって理解すべき。
最初に質問をした時点で他人の時間を自分のために使う失礼な人になったわけだから、たいていのことは我慢しなきゃならん。
回答の仕方(回答のための再質問を含む)が気に入らんとか怒り出してはいけない。
Re: (スコア:0)
無許可で使っているであろうエロゲの抽出音声(キャラ名言ってるので作品もわかる)は日常シーンだけど、濡れ場でどうなるか気になる
Re: (スコア:0)
無許可で使っているであろうエロゲの抽出音声(キャラ名言ってるので作品もわかる)は日常シーンだけど、濡れ場でどうなるか気になる
別に一発作成しなくちゃいけないわけでなし
濡れ場音声学習させてから好みの音声化してやればいいだけなんじゃないかな
# まぁ濡れ場のシーンや盛り上がり度を動的に1フレ遅延以内で合わせるにはまだスペック足りんのだろうけれど