パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

ビデオ映像中の人物を自在に喋らせる映像合成技術」記事へのコメント

  • この人がこんなことを!ってなこと言わすにも使えそうです。

    「プロプライエタリもいいんじゃない?たまにはさ」とRMS氏に言わせてみたり、
    「次期Windowsはソースを公開し、正式名称をMS GNU/Win32とします。」とB.G氏に言わせてみたり。
    • この人がこんなことを!ってなこと言わすにも使えそうです。

      実在人物の声でしゃべる音声合成システムはすでにあります。 InfoTalker [ascii24.com] とか Speechify [zdnet.co.jp] とか。 ただし,これらのシステムはサンプルを大量に取る必要がありますし(Speechify の記事では「数十時間」と言っております), サンプルで取った音声の部品を組み合わせるだけなので, どんな状況の声でも合成できるというわけではないと思います。 [怒

      • by N'gatt (9815) on 2002年07月19日 13時06分 (#128530) 日記
        Speechifyはよく知りませんが、InfoTalkerのコアになっているATRのCHATRは聞いたことがあります。デモで喪黒服造(大平透)や黒柳徹子なんかの合成をしていましたが、確かに本人の声でした。

        ただ、CHATRの合成は、アクセントやイントネーションがかなりおかしいのが難点です。そういう研究も継続してされているでしょうから、今はどうなのか知りませんが、二年ほど前は、まだまだでした…。
        そんなわけで、
        [怒声とか笑い声とか嬌声とか喘ぎ声 :-) とかは, そういうサンプルを取らなければだせないでしょう。]

        データを取るだけだと難しいかもしれませんね。

        #まあ、「喘ぎ声の『あぁ』」に「普通の『あー』」と別のラベルを付ければいいんだろうけど…

        あと
        Speechify の記事だと,英語・日本語・韓国語に対応しているようです。別の言語に対応するのがどれくらい容易なのか大変なのかはわかりませんが。

        たぶん言語によって合成の最小単位になる音素が違ってくるでしょうから、言語ごとに適した音素ラベルを設定する労力が掛かるんじゃないかと。

        例えば日本語の基準(50音)でラベル付けしたデータで英語音声を合成したら、"va"と"ba"や"ra"と"la"が区別できないでしょう?
        親コメント
        • Re:故人じゃなくても (スコア:2, すばらしい洞察)

          by taz3 (5225) on 2002年07月19日 15時31分 (#128635) 日記
          言語によって合成の最小単位になる音素が違ってくるでしょうから、言語ごとに適した音素ラベルを設定する労力が掛かるんじゃないかと。

          リエゾン(前後の音をくっつけて発音すること)がある分だけ 欧米圏の言語のほうが難しいような気がします.例えば, get it all はゲティトール と,日本人的には geti tall のように聞こえちゃいますよね.

          だから,実際に運用する場合も発音記号を入力する ことになるんだろうなぁ.日本語の場合は ひらがなで入力すればなんとかなると思うんですけどね

          --
          Koichi
          親コメント
          • by N'gatt (9815) on 2002年07月19日 15時56分 (#128649) 日記
            だから,実際に運用する場合も発音記号を入力する ことになるんだろうなぁ.日本語の場合は ひらがなで入力すればなんとかなると思うんですけどね

            ここ [kobe-u.ac.jp]とか見ると、CHATRはToBIというのを使っているようです。で、ここ [ohio-state.edu]が本家(?)らしいですが、これを見ると、英語、ドイツ語、日本語(J_ToBI)、韓国語、ギリシア語、スペイン語、広東語、クロアチア語なんかはあるようですね。
            リエゾンはどうなってるのか探してみたのですが、よく分かりませんでした(^^;;

            #てかgoogleで見つかったATRのJ_ToBI関連リンク全滅ってのは…もう開発してないんか?
            親コメント
          • by Shidho (5649) on 2002年07月20日 10時39分 (#129297) 日記
            日本語にその概念があると言われていないだけで、
            実はその概念を無意識に使っているというようなものが
            あったりします(声調とか)。

            日本語の口語でもリエゾンに相当するものもあるかもしれない。
            ちょっとすぐに例が出てこなくてすみません。
            親コメント
            • by N'gatt (9815) on 2002年07月20日 14時47分 (#129436) 日記
              日本語の口語でもリエゾンに相当するものもあるかもしれない。
              ちょっとすぐに例が出てこなくてすみません。

              リエゾンじゃないですが、似たようなものとしては「せんたくき」が「せんたっき」とか、「たいいく」が「たいく」っぽく聞こえるのとか。表記と口語の発声が一致しないものはそこそこありますね。

              ただ、日本語(標準語)の場合は、リエゾン(にあたる発音)をしなければそれらしく聞こえない…という例はほとんどないように思います。少なくても仮名表記に従って発声して、通じないことは無いでしょう。例外は「へ」と「は」くらい。

              おそらく、標準語を構築する際に、仮名の存在をかなり意識して行ったからだろうと思うのですが…。

              #地方の人の話し方を合成するとなると難しいだろうなあ(^^;;
              親コメント
          • by G7 (3009) on 2002年07月20日 12時37分 (#129361)
            >日本語の場合はひらがなで入力すればなんとかなる

            それだけでは情報はちょっと足りないはずです。

            たとえば「ガ」が鼻濁音になるかならないか?の制御は、
            日本語では文字には一切出ず、習慣(^^;によってのみ制御されていますよね。

            あとnとmの使いわけとかも。信用と神妙の「ん」の発音の違いね。
            #あ、これは習慣を使わなくても、直後の子音から機械的に判断できるかな…

            つまり日本語を「流暢に話せる」とは、こういう暗黙のお約束も込みで体得してて
            間違えずに喋れること、を指すはず。
            十分に体得してない人の発音は、「なんか変な、異国人m(__)mっぽい」発音として(ネイティブの耳には)聞こえるはず。

            そういや日本語の発音記号ってどうなってましたっけ?
            日本語独自(?)のラ行を表現するために、lとrを混ぜたような文字(発音記号)が
            用意されてるとか聞いたような気が…
            親コメント

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

処理中...