パスワードを忘れた? アカウント作成
3433 story

ビデオ映像中の人物を自在に喋らせる映像合成技術 50

ストーリー by Oliver
逆アフレコ 部門より

skimsr 曰く、 "CNN.co.jpおよびCNN.comの記事によれば,MITのTomaso Poggio氏のグループが,ビデオ映像中の人物画像を解析・合成して,任意の言葉に合わせて喋らせたり歌わせたりできる映像処理技術を開発したそうです。ある発音に対する口の動きをコンピュータで解析する事で,どんな言葉についても口の動きを合成できるそうです。マリリン・モンローに別の人気歌手のヒット曲を歌わせる,というデモビデオを作製したそうで,記事曰く『本当に歌っているかのよう』だとか。
詳細はPossio氏のラボのページにある論文一覧を参照下さい。この映像処理技術はSIGGRAPH2002で発表されるようです。
CNNの記事中では特に書いてないんですが,音声を自由に合成できる訳では無いようです。音声も自由に合成できるようになれば凄い事になりそうです(往年の名俳優や歌手の新作(?)が観れるようになるかも)。映像作品製作への応用が期待されます。その反面,記事中でも触れられていますが,いたずらや犯罪に利用される可能性も指摘されています。さてこの技術,/.Jの皆さんなら何に使いますか?"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Joga (8113) on 2002年07月19日 11時44分 (#128463)
    考えようによっては、すっごい危険な技術だと思うのだが。
    既出だけど、すぐ思いついたのはビンラディンがテロを指示する映像を捏造するとか。
    あとは、政敵が賄賂を受け取ってる映像とか、
    政権批判のジャーナリストの評判を落とす映像とか。
    罠にはめるにはとっても都合のいいツールになりそうで怖い。

    #個人的には、マリリン・モンローがダイドの曲を歌ってるのを見てみたい。
    #イメージと合わなさそうで面白そう(笑)
    • > 政敵が賄賂を受け取ってる映像とか、
      > 政権批判のジャーナリストの評判を落とす映像とか。
      > 罠にはめるにはとっても都合のいいツールになりそうで怖い。

      そういった映像が証拠能力を持たなくなるのだろうか?
      --
      [udon]
      親コメント
      • >そういった映像が証拠能力を持たなくなるのだろうか?

        たとえばそういう映像をテレビなどで流せば、いくら「証拠能力はない」「捏造の可能性がある」と指摘しても相当大きな影響力を持つことになります。
        否定するためにはそれが捏造されたものであるという証拠を示さなければ納得しない人が多いだろうし、「捏造された証拠」が捏造されたものであると主張する人も出てくるでしょう。
        --
        うじゃうじゃ
        親コメント
        • by gam (10300) on 2002年07月20日 13時41分 (#129401) 日記
          音声録音は合成される。
          映像録画も捏造される。
          紙幣は偽造される。
          文書も改竄される。

          自分の記憶も注入される。
          (朝起きたら、電極の跡があるんだけど。)

          こうなった日には裁判で使える証拠はなくなる。
          信用に基づいた社会は崩壊する。
          親コメント
    • 村上龍の「愛と幻想のファシズム」にそういうエピソードがありましたね。
      #実家にあるから調べられない…
      親コメント
    • by G7 (3009) on 2002年07月20日 12時43分 (#129368)
      >すぐ思いついたのはビンラディンがテロを指示する映像を捏造する

      実際に米政府があの「ビデオ映像」を公開したのって、
      たしか事件から3ヶ月くらい後でしたよね…。

      俺はあれ(あのどことなく胡散臭い映像)を見たとき、すぐに、
      「ああ、今の技術では、こういうのを捏造するのに3ヶ月の時間を要するんだな」
      と思いましたとさ。

      それが今回は、より短い時間で(そして多分よりリアルに)処理できるようになったぞ、という話なのか、
      それとも実はあの時点でそこそこ完成していたが「しばらく秘密」にされていたのか…

      などと陰謀説を妄想する俺脳は今日も暴走してたのでした(笑)

      いや、俺妄想はどうでもいいんですが、あの「ビデオ」は胡散臭いっす。
      親コメント
  • by Xegnyph (9041) on 2002年07月19日 9時14分 (#128372)
    当校の講師は全員ネイティブなプログラムで動作しております・・・・
  • by Landie(GRG) (6950) on 2002年07月19日 9時26分 (#128376) ホームページ
    に、ぜひ使用して欲しいのです。

    既にCGアニメなんかだと、絵にあわせて声を入れるのではなく、声にあわせて絵を動かすようになってるようですし。
  • いっこく堂 [ikkokudou.com]さんなんかどうでしょうか。

  • by tm-hal (5482) on 2002年07月19日 8時15分 (#128342) 日記
    TVシリーズ(新しい方)で、ターゲットの人物を騙すために、その人の上司(?)の演説のビデオを切り貼りして偽の演説ビデオを作るってシーンがありましたね。
    作成途中はいろいろと切り貼りしてましたが、できあがった映像は撮り直ししたものみたいでした。(^^;

    あーいうのが現実にできるようになるんですかねぇ。
    --
    ----tm-hal-----
    我々はM$だ
    お前達の知識と技術を吸収し、お前達の企業を買収する
    抵抗は無意味だ
  • by Ryo.F (3896) on 2002年07月19日 8時32分 (#128352) 日記
    テロ実行を指示させる、というのが*実際に使われた*かもね。
    • 実際、米軍の情報戦研究の中には、「無人機などから、戦争の相手の指導者の声や 画像を合成したものを使った偽情報を地元のTVなどの電波を乗っ取り放送して、降伏を勧めたり、厭戦気分を高める」と言うのが あります。

      研究自体はかなり使える所まで進んでいるようで(ここ数年で実用化されるとの触 れ込みで研究を進めていた)、アフガン戦争でMC-130から放送された厭戦気分や地元 の支配者への反抗を勧める放送も、この研究の一環である可能性が高いです。

      アフガンやバルカン半島やアフリカのように、ネットなどのインフラが整備されていな かったり、北朝鮮などのように情報統制が厳しい国家では、情報の受け手のメディアリ テラシーが弱い場合が多いので効果的であると考えているようです。

      逆にそういう国ではマスメディアを半信半疑で聞いている場合が多いので、目論見 通りに行かないのではないか、どちらかというとアメリカや日本のようにマスメディア の発達した所の方が使える策略かも知れないと怖いものを感じるのですが。

      親コメント
  • この人がこんなことを!ってなこと言わすにも使えそうです。

    「プロプライエタリもいいんじゃない?たまにはさ」とRMS氏に言わせてみたり、
    「次期Windowsはソースを公開し、正式名称をMS GNU/Win32とします。」とB.G氏に言わせてみたり。
    • by numa (4467) on 2002年07月19日 11時25分 (#128451) ホームページ 日記
      この人がこんなことを!ってなこと言わすにも使えそうです。

      実在人物の声でしゃべる音声合成システムはすでにあります。 InfoTalker [ascii24.com] とか Speechify [zdnet.co.jp] とか。 ただし,これらのシステムはサンプルを大量に取る必要がありますし(Speechify の記事では「数十時間」と言っております), サンプルで取った音声の部品を組み合わせるだけなので, どんな状況の声でも合成できるというわけではないと思います。 [怒声とか笑い声とか嬌声とか喘ぎ声 :-) とかは, そういうサンプルを取らなければだせないでしょう。]

      Speechify の記事だと,英語・日本語・韓国語に対応しているようです。別の言語に対応するのがどれくらい容易なのか大変なのかはわかりませんが。

      映像の合成とは少し変わりますが,ご参考まで。

      親コメント
      • by N'gatt (9815) on 2002年07月19日 13時06分 (#128530) 日記
        Speechifyはよく知りませんが、InfoTalkerのコアになっているATRのCHATRは聞いたことがあります。デモで喪黒服造(大平透)や黒柳徹子なんかの合成をしていましたが、確かに本人の声でした。

        ただ、CHATRの合成は、アクセントやイントネーションがかなりおかしいのが難点です。そういう研究も継続してされているでしょうから、今はどうなのか知りませんが、二年ほど前は、まだまだでした…。
        そんなわけで、
        [怒声とか笑い声とか嬌声とか喘ぎ声 :-) とかは, そういうサンプルを取らなければだせないでしょう。]

        データを取るだけだと難しいかもしれませんね。

        #まあ、「喘ぎ声の『あぁ』」に「普通の『あー』」と別のラベルを付ければいいんだろうけど…

        あと
        Speechify の記事だと,英語・日本語・韓国語に対応しているようです。別の言語に対応するのがどれくらい容易なのか大変なのかはわかりませんが。

        たぶん言語によって合成の最小単位になる音素が違ってくるでしょうから、言語ごとに適した音素ラベルを設定する労力が掛かるんじゃないかと。

        例えば日本語の基準(50音)でラベル付けしたデータで英語音声を合成したら、"va"と"ba"や"ra"と"la"が区別できないでしょう?
        親コメント
        • Re:故人じゃなくても (スコア:2, すばらしい洞察)

          by taz3 (5225) on 2002年07月19日 15時31分 (#128635) 日記
          言語によって合成の最小単位になる音素が違ってくるでしょうから、言語ごとに適した音素ラベルを設定する労力が掛かるんじゃないかと。

          リエゾン(前後の音をくっつけて発音すること)がある分だけ 欧米圏の言語のほうが難しいような気がします.例えば, get it all はゲティトール と,日本人的には geti tall のように聞こえちゃいますよね.

          だから,実際に運用する場合も発音記号を入力する ことになるんだろうなぁ.日本語の場合は ひらがなで入力すればなんとかなると思うんですけどね

          --
          Koichi
          親コメント
          • by N'gatt (9815) on 2002年07月19日 15時56分 (#128649) 日記
            だから,実際に運用する場合も発音記号を入力する ことになるんだろうなぁ.日本語の場合は ひらがなで入力すればなんとかなると思うんですけどね

            ここ [kobe-u.ac.jp]とか見ると、CHATRはToBIというのを使っているようです。で、ここ [ohio-state.edu]が本家(?)らしいですが、これを見ると、英語、ドイツ語、日本語(J_ToBI)、韓国語、ギリシア語、スペイン語、広東語、クロアチア語なんかはあるようですね。
            リエゾンはどうなってるのか探してみたのですが、よく分かりませんでした(^^;;

            #てかgoogleで見つかったATRのJ_ToBI関連リンク全滅ってのは…もう開発してないんか?
            親コメント
          • by Shidho (5649) on 2002年07月20日 10時39分 (#129297) 日記
            日本語にその概念があると言われていないだけで、
            実はその概念を無意識に使っているというようなものが
            あったりします(声調とか)。

            日本語の口語でもリエゾンに相当するものもあるかもしれない。
            ちょっとすぐに例が出てこなくてすみません。
            親コメント
            • by N'gatt (9815) on 2002年07月20日 14時47分 (#129436) 日記
              日本語の口語でもリエゾンに相当するものもあるかもしれない。
              ちょっとすぐに例が出てこなくてすみません。

              リエゾンじゃないですが、似たようなものとしては「せんたくき」が「せんたっき」とか、「たいいく」が「たいく」っぽく聞こえるのとか。表記と口語の発声が一致しないものはそこそこありますね。

              ただ、日本語(標準語)の場合は、リエゾン(にあたる発音)をしなければそれらしく聞こえない…という例はほとんどないように思います。少なくても仮名表記に従って発声して、通じないことは無いでしょう。例外は「へ」と「は」くらい。

              おそらく、標準語を構築する際に、仮名の存在をかなり意識して行ったからだろうと思うのですが…。

              #地方の人の話し方を合成するとなると難しいだろうなあ(^^;;
              親コメント
          • by G7 (3009) on 2002年07月20日 12時37分 (#129361)
            >日本語の場合はひらがなで入力すればなんとかなる

            それだけでは情報はちょっと足りないはずです。

            たとえば「ガ」が鼻濁音になるかならないか?の制御は、
            日本語では文字には一切出ず、習慣(^^;によってのみ制御されていますよね。

            あとnとmの使いわけとかも。信用と神妙の「ん」の発音の違いね。
            #あ、これは習慣を使わなくても、直後の子音から機械的に判断できるかな…

            つまり日本語を「流暢に話せる」とは、こういう暗黙のお約束も込みで体得してて
            間違えずに喋れること、を指すはず。
            十分に体得してない人の発音は、「なんか変な、異国人m(__)mっぽい」発音として(ネイティブの耳には)聞こえるはず。

            そういや日本語の発音記号ってどうなってましたっけ?
            日本語独自(?)のラ行を表現するために、lとrを混ぜたような文字(発音記号)が
            用意されてるとか聞いたような気が…
            親コメント
    • by hix (3507) on 2002年07月19日 11時26分 (#128452) 日記
      大統領の苦情 [plala.or.jp]とか伍長閣下の演説 [neweb.ne.jp]とか宣伝相の文句 [neweb.ne.jp]とか...
      # ちょっと違う?
      親コメント
  • by kubota (64) on 2002年07月19日 10時11分 (#128397) ホームページ 日記
    どんな言語でも対応できるのでしょうか。cnn.co.jp の記事は、スペイン語も OK なことをほのめかす書き方をしてますが。
  • by wawawa (3653) on 2002年07月19日 11時12分 (#128444)
    STAR WARS EP-IV, V, VIのDVD(その後継)を出す時には、
    この技術の発展型を使って、旧作から改変しまくった
    バージョンが出るような予感。

    # 実用になるまで待ち続けるのか... あと何年...
  • 映画の吹き替えとかで俳優の口が、吹き替え音声などにあわせて再生されてりすると面白そうな気がします。

    まぁそのまえにいろいろ壁がありそうですが。

    あとは小泉首相をドクターマシリトの声でしゃべらせたりもしてみたいかもしれない。
    • リロードしてから次からは投稿します。
      親コメント
      • by G7 (3009) on 2002年07月20日 12時49分 (#129375)
        リロードしてからポストするまで更に新たな「既出」が出現する罠。

        というわけで、1つのトピックに対して発言したいことが多数(笑)になった場合、
        何本もの投稿文をエディタで別途書いて、推敲だのリロードだのをして様子を見ながら、後でまとめてそれらをポストしたいなあと思うのですが、
        実際にまとめポスト(手動だけど時間的にまとまってる)をすると、今度は例の2分制限にひっかかって延々と待たされる罠。

        何度も言いますが、スラドの方式は、書きづらいです。

        逆にいえば「リロード」を気にしだしたら(斯樣に)キリがないので、
        むしろ気にしないほうが良いくらいだと思います。
        既出記事がマイナスモデレされるのを過剰に恐怖しているなら話は別だけど(^^;。
        親コメント
  • by krackmania (7864) on 2002年07月19日 12時39分 (#128500) 日記
    森首相みたいのが出ても大丈夫。
    たってるだけで記者会見が・・・<ゲフンゲフン
  • こっちはCGの顔合成ですが。
    SEGAが,入力音声から感情を識別してCG顔の表情を作るソフト『Magical Face』を発表 [sega.jp]しました。CGソフト「Maya」のプラグインとして動作するそうです。こちらもSIGGRAPH2002で発表されるそうです。
  • by Kow (2603) on 2002年07月19日 20時14分 (#128867) ホームページ 日記
    裁判では録音された音声は参考になるだけで証拠にはならないと
    記憶しているのですが,近々映像の証拠能力も無くなるのでしょうか。
    ハイテクがハイテクによって駆逐されていく。
  • by Anonymous Coward on 2002年07月19日 21時10分 (#128889)

    声と唇の動き(形)が合ってることって、そんなに大事なんですかね。私などは口パクのタイミングさえあっていれば、形なんてあんまり気にならないんですけど。

    lip-synchが3Dソフト [hash.com]のウリの一つだったり、既出のこんなアニメ [planetcomics.jp]があったりと、この手の執拗なまでのリップシンクへの拘りって欧米人に特に有るように思います。

    日本人が口の形を気にせず欧米(特にアメリカ)人がそれを気にすることについては、

    • アメリカなど異文化・異言語の人々が混在していると、言葉を聞き取るため、口の動きなどの情報も加味しないと意思疏通に支障がある。
    • 日本語は口を大きく動かさなくても話せる音韻体系をもっており、口の動きはそもそも意思疏通の助けにならない。
    • 日本人は洋画の吹き替えやアニメに慣れているので、口の形は気にしない。
    なんてことを聞いたことがありますが、本当のところはどうなんでしょう。

    私ゃやっぱしどうも、映像の中の口の動きなんて些細な部分に、(偽造目的ならともかく)どうしてここまで拘れるのかってのがピンと来ないんだよなあ……

    • ↑興味深いです。

      >日本人が口の形を気にせず欧米(特にアメリカ)人がそれを気にすることについては

      これは知りませんでしたが,欧米人は会話時のジェスチャや表情の変化を効果的に使うような印象があります。声と唇の動きが合っているかどうかより,口元の表情付けの方を重要視しているのかもしれませんね。

      引用が前後しますが,

      >声と唇の動き(形)が合ってることって、そんなに大事なんですかね。

      日本人はコマ数の少ないアニメでの口パクを見慣れているので,唇の動きがそんなに気にならないのかもしれませんね(^^; それはともかく,会話相手の唇の動きなんて普段は気にしてませんが,実際に声と唇の動きがズレているのを見ると違和感は感じるんじゃないですかね。例えば,テレビとかで映像と音声がズレているとすぐ気付くじゃないですか。

      デモビデオを実際に見てみたいですね。声と,合成された唇の動きがシンクロしている事で,自分がそれを見てどういう印象をもつのか,興味があります。
      親コメント
      • by Gummary (10402) on 2002年07月20日 12時29分 (#129356)
        気にする/しない以前に、唇の動きは聞こえる音声にも影響を与えることが知られています。
        たとえば、「Da」と発音している映像を見ながら「Ba」という音声を聞くと「Da」に聞こえます。
        これをマガーク効果といいます。
        例(ちょっとわかりづらいけど) [ntt.co.jp]
        親コメント
      • by G7 (3009) on 2002年07月20日 12時56分 (#129378)
        >声と,合成された唇の動きがシンクロしている事で,自分がそれを見てどういう印象をもつのか

        あんまり関係ないのかもだけど、ビーストウォーズ、という米だかカナダだかのアニメが有ります。
        毎週放送なアニメが3DCGでばりばり動いていて、で、たしかあれって
        声優の口の動きを取りこんで映像を起してる、とかじゃなかったかな…?

        で、そういうものを見た感想。あれはあれで面白い、です。
        動かなくても面白かった(CG以外の色々な面で面白い作品だということもあって)だろうけど、
        動くことによってはじめて得られた面白さもきっと加味されてるんだろうな、と思いました。

        かわりに何かを失った、かどうかは俺には判りませんでした(^^;
        口連動をオフにして作り直した映像なんてものを見るチャンスが有ったら容易に比較できるのでしょうけども。
        親コメント
        • あんまり関係ないのかもだけど、ビーストウォーズ、という米だかカナダだかのアニメが有ります。

          制作はカナダの会社です。リップシンクしてたというのははじめて知りました。そういえば妙にちゃんと動いてましたねえ>唇

          下手に唇動いちゃうと、洋画と同じで、吹き替えとの口の動きの違いが気になることがたまーにありますね。いや、あの番組はやたらアドリブが多かったから、「たまーに」ではないかも(^^;;

          #日本発のリミックス2話なんかは特に…
          親コメント
  • なぜかサンダーバードに言及する人がいませんねえ。 「音に合わせて口パク」といえば,スーパーマリオネーションでしょ。ってのは年よりの証拠なのかしら。Penelope 萌え,とか Tin Tin 萌えとか,……いないんだろうな。

    現実の場面の偽装という観点だと, 「機動警察パトレイバー 2 the movie」を 思い出しました。 あれで, 橋を攻撃したのが F-16 か F-2 (って,当時は FS-X か。制式化の暁には F-16J になるんだ,とかいわれてたっけか) かをカラオケ画面から割り出す場面があって, でも同じ技術を使えば偽造もできるんだから, 証拠能力自体が怪しいね,という話になって, 結局何が現実なのかわからなくなるという話になったんですけど。 9/11 以降,あの話が作り話に見えなくなったんですけどね。

  • by Anonymous Coward on 2002年07月19日 7時24分 (#128316)
    エロエロなセリフをしゃべらせてみる。
    それで反応(なにが?)すれば、本物の技術。
  • by Anonymous Coward on 2002年07月19日 8時15分 (#128340)

    ペリー(カイコクシテクダサイヨー)と石原裕次郎(俺のダ*で歌ってくれよ)を思い出した俺。

  • by Anonymous Coward on 2002年07月19日 11時42分 (#128460)
    声そのものには特許だの○○権だのがかかんないと思った。たしか。

    (それを前提として)

    映画の吹き替えの話がどっかに出てたけど、音声合成と組み合わせて役者当人の声で各国語を違和感無く喋ってくれるシステムを作れば幸せなのではないだろうか?
  • by Anonymous Coward on 2002年07月19日 13時19分 (#128539)
    僕はCLUTCH CARGO [planetcomics.jp]のクチビル合成の方がいいな。
  • by Anonymous Coward on 2002年07月19日 15時15分 (#128626)
    萌えないなぁ
    • by N'gatt (9815) on 2002年07月19日 16時02分 (#128656) 日記
      口ぱくがリアルになるとか。
      #まるでAKIRA(^^;

      それか、アテレコにあわせて口ぱくの動画を自動生成するシステムとか。動画に合わせられない下手糞声優もこれで安心!
      親コメント
      • いえ、まだ絵があがってないんですよ。

        #だから配役ごとに色のついた線が動くんです、ぴろ~んって。
        • by N'gatt (9815) on 2002年07月20日 10時40分 (#129298) 日記
          うーん、アフレコじゃなくて、アテレコ=洋ものアニメの吹き替えくらいのつもりだったんですが。だから常に絵がある状況を想定してました。
          #下手なタレントとかを使いたがるのは主にディズニーものとかだし

          今調べたら、アテレコとアフレコの定義ってかなりあいまいですね。私はアニメはアフレコ(あるいはプレスコ?)だと思ってたんですけど、アニメにアフレコは有り得ない…みたいな意見もあるみたい。
          #だから配役ごとに色のついた線が動くんです、ぴろ~んって。

          テレビアニメや最近のOVAなんかは、そうらしいですね。

          でもそれって、作画が遅れているために起こる苦肉の策でしょう?
          その線の動きと口ぱくの動画は絵コンテに合わせて同じタイミングなわけ、それに合わせられない下手糞については、厳しい制作時間を削って動画を(たぶん編集段階で)いじることもあるとか。

          まあそこも含めて、編集の最終段階まで口ぱく(どころか口の動画そのもの)を作らなくていいってのはメリットかなあ、と。

          …ここまで書いて、口ぱくの動画が全体の作業量から見たら大したことないことに気づいた(^^;
          親コメント
  • by Anonymous Coward on 2002年07月19日 20時38分 (#128880)
    ときメモ2で、コナミあたりが特許とってたりして:-)
  • by Anonymous Coward on 2002年07月20日 1時32分 (#129096)
    言葉>唇
    唇>言葉
    の両方向が出来たことになるから、ハンディがある方のインターフェースによいね。

    ぜひ、ホーキンス博士に使ってもらって、講義を聞きたい。
typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...