ビデオ映像中の人物を自在に喋らせる映像合成技術 50
ストーリー by Oliver
逆アフレコ 部門より
逆アフレコ 部門より
skimsr 曰く、 "CNN.co.jpおよびCNN.comの記事によれば,MITのTomaso Poggio氏のグループが,ビデオ映像中の人物画像を解析・合成して,任意の言葉に合わせて喋らせたり歌わせたりできる映像処理技術を開発したそうです。ある発音に対する口の動きをコンピュータで解析する事で,どんな言葉についても口の動きを合成できるそうです。マリリン・モンローに別の人気歌手のヒット曲を歌わせる,というデモビデオを作製したそうで,記事曰く『本当に歌っているかのよう』だとか。
詳細はPossio氏のラボのページにある論文一覧を参照下さい。この映像処理技術はSIGGRAPH2002で発表されるようです。
CNNの記事中では特に書いてないんですが,音声を自由に合成できる訳では無いようです。音声も自由に合成できるようになれば凄い事になりそうです(往年の名俳優や歌手の新作(?)が観れるようになるかも)。映像作品製作への応用が期待されます。その反面,記事中でも触れられていますが,いたずらや犯罪に利用される可能性も指摘されています。さてこの技術,/.Jの皆さんなら何に使いますか?"
すっごい危険じゃない? (スコア:3, すばらしい洞察)
既出だけど、すぐ思いついたのはビンラディンがテロを指示する映像を捏造するとか。
あとは、政敵が賄賂を受け取ってる映像とか、
政権批判のジャーナリストの評判を落とす映像とか。
罠にはめるにはとっても都合のいいツールになりそうで怖い。
#個人的には、マリリン・モンローがダイドの曲を歌ってるのを見てみたい。
#イメージと合わなさそうで面白そう(笑)
Re:すっごい危険じゃない? (スコア:2)
> 政権批判のジャーナリストの評判を落とす映像とか。
> 罠にはめるにはとっても都合のいいツールになりそうで怖い。
そういった映像が証拠能力を持たなくなるのだろうか?
[udon]
Re:すっごい危険じゃない? (スコア:1)
たとえばそういう映像をテレビなどで流せば、いくら「証拠能力はない」「捏造の可能性がある」と指摘しても相当大きな影響力を持つことになります。
否定するためにはそれが捏造されたものであるという証拠を示さなければ納得しない人が多いだろうし、「捏造された証拠」が捏造されたものであると主張する人も出てくるでしょう。
うじゃうじゃ
裁判が不可能になる日 (スコア:1)
映像録画も捏造される。
紙幣は偽造される。
文書も改竄される。
自分の記憶も注入される。
(朝起きたら、電極の跡があるんだけど。)
こうなった日には裁判で使える証拠はなくなる。
信用に基づいた社会は崩壊する。
Re:すっごい危険じゃない? (スコア:1)
#実家にあるから調べられない…
Re:すっごい危険じゃない? (スコア:1)
実際に米政府があの「ビデオ映像」を公開したのって、
たしか事件から3ヶ月くらい後でしたよね…。
俺はあれ(あのどことなく胡散臭い映像)を見たとき、すぐに、
「ああ、今の技術では、こういうのを捏造するのに3ヶ月の時間を要するんだな」
と思いましたとさ。
それが今回は、より短い時間で(そして多分よりリアルに)処理できるようになったぞ、という話なのか、
それとも実はあの時点でそこそこ完成していたが「しばらく秘密」にされていたのか…
などと陰謀説を妄想する俺脳は今日も暴走してたのでした(笑)
いや、俺妄想はどうでもいいんですが、あの「ビデオ」は胡散臭いっす。
TV電話を使った英会話教室! (スコア:2, おもしろおかしい)
Re:TV電話を使った英会話教室! (スコア:1)
洋画の吹き替え (スコア:2, 興味深い)
既にCGアニメなんかだと、絵にあわせて声を入れるのではなく、声にあわせて絵を動かすようになってるようですし。
Re:洋画の吹き替え (スコア:1)
ぜひスティーブン・セガールに依頼を...
# いや、ニコラス・ケイジか?
死んだ人ではありませんが (スコア:1)
いっこく堂 [ikkokudou.com]さんなんかどうでしょうか。
MISSION: IMPOSSIBLE (スコア:1)
作成途中はいろいろと切り貼りしてましたが、できあがった映像は撮り直ししたものみたいでした。(^^;
あーいうのが現実にできるようになるんですかねぇ。
----tm-hal-----
我々はM$だ
お前達の知識と技術を吸収し、お前達の企業を買収する
抵抗は無意味だ
ビンラディンに (スコア:1)
Re:ビンラディンに (スコア:1)
研究自体はかなり使える所まで進んでいるようで(ここ数年で実用化されるとの触 れ込みで研究を進めていた)、アフガン戦争でMC-130から放送された厭戦気分や地元 の支配者への反抗を勧める放送も、この研究の一環である可能性が高いです。
アフガンやバルカン半島やアフリカのように、ネットなどのインフラが整備されていな かったり、北朝鮮などのように情報統制が厳しい国家では、情報の受け手のメディアリ テラシーが弱い場合が多いので効果的であると考えているようです。
逆にそういう国ではマスメディアを半信半疑で聞いている場合が多いので、目論見 通りに行かないのではないか、どちらかというとアメリカや日本のようにマスメディア の発達した所の方が使える策略かも知れないと怖いものを感じるのですが。
故人じゃなくても (スコア:1)
「プロプライエタリもいいんじゃない?たまにはさ」とRMS氏に言わせてみたり、
「次期Windowsはソースを公開し、正式名称をMS GNU/Win32とします。」とB.G氏に言わせてみたり。
Re:故人じゃなくても (スコア:2, 参考になる)
実在人物の声でしゃべる音声合成システムはすでにあります。 InfoTalker [ascii24.com] とか Speechify [zdnet.co.jp] とか。 ただし,これらのシステムはサンプルを大量に取る必要がありますし(Speechify の記事では「数十時間」と言っております), サンプルで取った音声の部品を組み合わせるだけなので, どんな状況の声でも合成できるというわけではないと思います。 [怒声とか笑い声とか嬌声とか喘ぎ声 :-) とかは, そういうサンプルを取らなければだせないでしょう。]
Speechify の記事だと,英語・日本語・韓国語に対応しているようです。別の言語に対応するのがどれくらい容易なのか大変なのかはわかりませんが。
映像の合成とは少し変わりますが,ご参考まで。
Re:故人じゃなくても (スコア:2, 興味深い)
ただ、CHATRの合成は、アクセントやイントネーションがかなりおかしいのが難点です。そういう研究も継続してされているでしょうから、今はどうなのか知りませんが、二年ほど前は、まだまだでした…。
そんなわけで、
データを取るだけだと難しいかもしれませんね。
#まあ、「喘ぎ声の『あぁ』」に「普通の『あー』」と別のラベルを付ければいいんだろうけど…
あと
たぶん言語によって合成の最小単位になる音素が違ってくるでしょうから、言語ごとに適した音素ラベルを設定する労力が掛かるんじゃないかと。
例えば日本語の基準(50音)でラベル付けしたデータで英語音声を合成したら、"va"と"ba"や"ra"と"la"が区別できないでしょう?
Re:故人じゃなくても (スコア:2, すばらしい洞察)
リエゾン(前後の音をくっつけて発音すること)がある分だけ 欧米圏の言語のほうが難しいような気がします.例えば, get it all はゲティトール と,日本人的には geti tall のように聞こえちゃいますよね.
だから,実際に運用する場合も発音記号を入力する ことになるんだろうなぁ.日本語の場合は ひらがなで入力すればなんとかなると思うんですけどね
Koichi
Re:故人じゃなくても (スコア:1)
ここ [kobe-u.ac.jp]とか見ると、CHATRはToBIというのを使っているようです。で、ここ [ohio-state.edu]が本家(?)らしいですが、これを見ると、英語、ドイツ語、日本語(J_ToBI)、韓国語、ギリシア語、スペイン語、広東語、クロアチア語なんかはあるようですね。
リエゾンはどうなってるのか探してみたのですが、よく分かりませんでした(^^;;
#てかgoogleで見つかったATRのJ_ToBI関連リンク全滅ってのは…もう開発してないんか?
日本語と外国語 (スコア:1)
実はその概念を無意識に使っているというようなものが
あったりします(声調とか)。
日本語の口語でもリエゾンに相当するものもあるかもしれない。
ちょっとすぐに例が出てこなくてすみません。
Re:日本語と外国語 (スコア:1)
リエゾンじゃないですが、似たようなものとしては「せんたくき」が「せんたっき」とか、「たいいく」が「たいく」っぽく聞こえるのとか。表記と口語の発声が一致しないものはそこそこありますね。
ただ、日本語(標準語)の場合は、リエゾン(にあたる発音)をしなければそれらしく聞こえない…という例はほとんどないように思います。少なくても仮名表記に従って発声して、通じないことは無いでしょう。例外は「へ」と「は」くらい。
おそらく、標準語を構築する際に、仮名の存在をかなり意識して行ったからだろうと思うのですが…。
#地方の人の話し方を合成するとなると難しいだろうなあ(^^;;
Re:故人じゃなくても (スコア:1)
それだけでは情報はちょっと足りないはずです。
たとえば「ガ」が鼻濁音になるかならないか?の制御は、
日本語では文字には一切出ず、習慣(^^;によってのみ制御されていますよね。
あとnとmの使いわけとかも。信用と神妙の「ん」の発音の違いね。
#あ、これは習慣を使わなくても、直後の子音から機械的に判断できるかな…
つまり日本語を「流暢に話せる」とは、こういう暗黙のお約束も込みで体得してて
間違えずに喋れること、を指すはず。
十分に体得してない人の発音は、「なんか変な、異国人m(__)mっぽい」発音として(ネイティブの耳には)聞こえるはず。
そういや日本語の発音記号ってどうなってましたっけ?
日本語独自(?)のラ行を表現するために、lとrを混ぜたような文字(発音記号)が
用意されてるとか聞いたような気が…
Re:故人じゃなくても (スコア:1)
# ちょっと違う?
対応言語は? (スコア:1)
ルーカス卿待望の技術 ? (スコア:1)
この技術の発展型を使って、旧作から改変しまくった
バージョンが出るような予感。
# 実用になるまで待ち続けるのか... あと何年...
Re:ルーカス卿待望の技術 ? (スコア:1)
どうなるのでしょう。ダースベイダーだって口が見
えないし。ヨーダの口の動きも人間とは違いそう。
---- sinbo
映画の吹き替えなんかに・・・。 (スコア:1)
まぁそのまえにいろいろ壁がありそうですが。
あとは小泉首相をドクターマシリトの声でしゃべらせたりもしてみたいかもしれない。
既出だった(--; (スコア:1)
Re:既出だった(--; (スコア:1)
というわけで、1つのトピックに対して発言したいことが多数(笑)になった場合、
何本もの投稿文をエディタで別途書いて、推敲だのリロードだのをして様子を見ながら、後でまとめてそれらをポストしたいなあと思うのですが、
実際にまとめポスト(手動だけど時間的にまとまってる)をすると、今度は例の2分制限にひっかかって延々と待たされる罠。
何度も言いますが、スラドの方式は、書きづらいです。
逆にいえば「リロード」を気にしだしたら(斯樣に)キリがないので、
むしろ気にしないほうが良いくらいだと思います。
既出記事がマイナスモデレされるのを過剰に恐怖しているなら話は別だけど(^^;。
これで (スコア:1)
たってるだけで記者会見が・・・<ゲフンゲフン
SEGAのCG顔合成ソフト (スコア:1)
SEGAが,入力音声から感情を識別してCG顔の表情を作るソフト『Magical Face』を発表 [sega.jp]しました。CGソフト「Maya」のプラグインとして動作するそうです。こちらもSIGGRAPH2002で発表されるそうです。
証拠物件 (スコア:1)
記憶しているのですが,近々映像の証拠能力も無くなるのでしょうか。
ハイテクがハイテクによって駆逐されていく。
lip synchってそんなに大事か (スコア:1, 興味深い)
声と唇の動き(形)が合ってることって、そんなに大事なんですかね。私などは口パクのタイミングさえあっていれば、形なんてあんまり気にならないんですけど。
lip-synchが3Dソフト [hash.com]のウリの一つだったり、既出のこんなアニメ [planetcomics.jp]があったりと、この手の執拗なまでのリップシンクへの拘りって欧米人に特に有るように思います。
日本人が口の形を気にせず欧米(特にアメリカ)人がそれを気にすることについては、
私ゃやっぱしどうも、映像の中の口の動きなんて些細な部分に、(偽造目的ならともかく)どうしてここまで拘れるのかってのがピンと来ないんだよなあ……
Re:lip synchってそんなに大事か (スコア:1)
>日本人が口の形を気にせず欧米(特にアメリカ)人がそれを気にすることについては
これは知りませんでしたが,欧米人は会話時のジェスチャや表情の変化を効果的に使うような印象があります。声と唇の動きが合っているかどうかより,口元の表情付けの方を重要視しているのかもしれませんね。
引用が前後しますが,
>声と唇の動き(形)が合ってることって、そんなに大事なんですかね。
日本人はコマ数の少ないアニメでの口パクを見慣れているので,唇の動きがそんなに気にならないのかもしれませんね(^^; それはともかく,会話相手の唇の動きなんて普段は気にしてませんが,実際に声と唇の動きがズレているのを見ると違和感は感じるんじゃないですかね。例えば,テレビとかで映像と音声がズレているとすぐ気付くじゃないですか。
デモビデオを実際に見てみたいですね。声と,合成された唇の動きがシンクロしている事で,自分がそれを見てどういう印象をもつのか,興味があります。
マガーク効果 (スコア:1)
たとえば、「Da」と発音している映像を見ながら「Ba」という音声を聞くと「Da」に聞こえます。
これをマガーク効果といいます。
例(ちょっとわかりづらいけど) [ntt.co.jp]
Re:lip synchってそんなに大事か (スコア:1)
あんまり関係ないのかもだけど、ビーストウォーズ、という米だかカナダだかのアニメが有ります。
毎週放送なアニメが3DCGでばりばり動いていて、で、たしかあれって
声優の口の動きを取りこんで映像を起してる、とかじゃなかったかな…?
で、そういうものを見た感想。あれはあれで面白い、です。
動かなくても面白かった(CG以外の色々な面で面白い作品だということもあって)だろうけど、
動くことによってはじめて得られた面白さもきっと加味されてるんだろうな、と思いました。
かわりに何かを失った、かどうかは俺には判りませんでした(^^;
口連動をオフにして作り直した映像なんてものを見るチャンスが有ったら容易に比較できるのでしょうけども。
Re:lip synchってそんなに大事か (スコア:1)
制作はカナダの会社です。リップシンクしてたというのははじめて知りました。そういえば妙にちゃんと動いてましたねえ>唇
下手に唇動いちゃうと、洋画と同じで、吹き替えとの口の動きの違いが気になることがたまーにありますね。いや、あの番組はやたらアドリブが多かったから、「たまーに」ではないかも(^^;;
#日本発のリミックス2話なんかは特に…
サンダーバード (スコア:1)
なぜかサンダーバードに言及する人がいませんねえ。 「音に合わせて口パク」といえば,スーパーマリオネーションでしょ。ってのは年よりの証拠なのかしら。Penelope 萌え,とか Tin Tin 萌えとか,……いないんだろうな。
現実の場面の偽装という観点だと, 「機動警察パトレイバー 2 the movie」を 思い出しました。 あれで, 橋を攻撃したのが F-16 か F-2 (って,当時は FS-X か。制式化の暁には F-16J になるんだ,とかいわれてたっけか) かをカラオケ画面から割り出す場面があって, でも同じ技術を使えば偽造もできるんだから, 証拠能力自体が怪しいね,という話になって, 結局何が現実なのかわからなくなるという話になったんですけど。 9/11 以降,あの話が作り話に見えなくなったんですけどね。
とりあえず (スコア:0)
それで反応(なにが?)すれば、本物の技術。
とりあえず (スコア:0)
ペリー(カイコクシテクダサイヨー)と石原裕次郎(俺のダ*で歌ってくれよ)を思い出した俺。
あんまり関係ないけど (スコア:0)
(それを前提として)
映画の吹き替えの話がどっかに出てたけど、音声合成と組み合わせて役者当人の声で各国語を違和感無く喋ってくれるシステムを作れば幸せなのではないだろうか?
この技術よりも (スコア:0)
アニメに使えないと (スコア:0)
Re:アニメに使えないと (スコア:1)
#まるでAKIRA(^^;
それか、アテレコにあわせて口ぱくの動画を自動生成するシステムとか。動画に合わせられない下手糞声優もこれで安心!
Re:アニメに使えないと (スコア:0)
#だから配役ごとに色のついた線が動くんです、ぴろ~んって。
Re:アニメに使えないと (スコア:1)
#下手なタレントとかを使いたがるのは主にディズニーものとかだし
今調べたら、アテレコとアフレコの定義ってかなりあいまいですね。私はアニメはアフレコ(あるいはプレスコ?)だと思ってたんですけど、アニメにアフレコは有り得ない…みたいな意見もあるみたい。
テレビアニメや最近のOVAなんかは、そうらしいですね。
でもそれって、作画が遅れているために起こる苦肉の策でしょう?
その線の動きと口ぱくの動画は絵コンテに合わせて同じタイミングなわけ、それに合わせられない下手糞については、厳しい制作時間を削って動画を(たぶん編集段階で)いじることもあるとか。
まあそこも含めて、編集の最終段階まで口ぱく(どころか口の動画そのもの)を作らなくていいってのはメリットかなあ、と。
…ここまで書いて、口ぱくの動画が全体の作業量から見たら大したことないことに気づいた(^^;
音声合成 (スコア:0)
ハンディがある人のインターフェース。 (スコア:0)
唇>言葉
の両方向が出来たことになるから、ハンディがある方のインターフェースによいね。
ぜひ、ホーキンス博士に使ってもらって、講義を聞きたい。
Re:ハンディがある人のインターフェース。 (スコア:0)
ホーキンス博士って誰?
まさかホーキング(Stephen W. Hawking)のことじゃないよね?