音声インタラクション構築ツールキット:MMDAgent 19
まずはこの動画を見て欲しい。
【MMDAgent】初音ミクとおしゃべりできるソフトをつくってみた(ニコ動へのリンクだと見れない人がいそうなのでアカウントなしで見れるはてなブックマークにリンクしています)
コイツが何かと言いますと、名工大開発の音声認識ソフトで音声入力した命令に従って3DモデリングされたCGのキャラクターがアクションをとる音声対話システムのソフトウェアツールキットです。
メインになるのは名工大の独自研究である音声認識システムだが、どうやらこの部分も含めてオープンソースで公開されるらしい。
音声合成の方はしゃべりがメインなのでVOCALOIDではなくオープンソースの音声合成システムOpen JTalkを使っているとのこと。これも音響データを入れ替えることでいろんな声でしゃべれる模様。
そして特筆すべきなのは、3DモデリングされたCGのキャラクターにMikuMikuDanceのモデルを使えると言うこと。どうも説明を聞く限り、リアクションにMMDのモーションデータも組み込めるようだ。
動画内で使用されている初音ミクのモデルは、実はMikuMikuDance同梱のモデルではなく、ユーザーが作成して一般公開しているモデルだったりします。
リップシンク(音声に合わせた口パク)もできるようなので、これもおそらくMikuMikuDanceにVOCALOID用のスクリプト(vsq)を使ったリップシンクシステムを応用してるんだと思われます。MMDはユーザーモデルが山ほど公開されているので、現時点で相当なバリエーションが期待できます。
CEATEC JAPAN 2010(名工大ブースはこちら)で正式発表されるとのことなので、これはちょっと面白いことになりそうだ。
補足情報とか (スコア:5, 参考になる)
たれ込み文を書いた段階では共同通信むけのリリースとニコニコ動画にしか記事がありませんでしたが、ITmediaが素早く反応して記事にしてます。
初音ミク、エージェントになる?――名工大「MMDAgent」がもたらす未来 [itmedia.co.jp]
たれ込み文は動画を数回見返しただけの状態で書いたので(編集者の方にある程度直してもらってますが)はけっこういい加減なこと書いてます。ITmediaさんはちゃんと取材した上で記事にしてるので、詳しくはこの記事を参照してください。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
MMDのモデルとモーションが流用できることの意味 (スコア:5, 参考になる)
MikuMikuDanceに詳しくない/知らない人にはよくわからないと思うので、MMDを使って出来ることを簡単に解説します。
MikuMikuDanceはストーリーリンク先の動画にあるように、初音ミクを躍らせることが出来るツールですが、厳密には3DモデリングされたCGオブジェクトを自在に動かすことの出来るツールで、躍る以外の行動もモーションに起こすことが出来ます。
また、表情もかなり自在に変えることが出来ます。この動画 [hatena.ne.jp]を見てもらえれば、どのくらいの精度で動かせるのかがわかると思います。
ユーザーモデルを作成するツールもあるので、モデルも数多く作られて、また公開されてます。ニコニコ動画中心なのでどうしても萌えキャラに偏りますが、中には上様 [hatena.ne.jp]や髭のドワーフ [hatena.ne.jp]、邪神 [hatena.ne.jp]なんてのもあります。
ちなみに、動かせるのは人間の形をしたモデルだけではなく、車 [hatena.ne.jp]や飛行機 [hatena.ne.jp]を動かしたりもできますし、その気になれば変形させることも可能 [hatena.ne.jp]です。
重要なのは、これらの多彩なモデルの多くが無償公開されているということです。ダンスのモーションデータも数多く公開されていて、素材として利用可能です。
MMDAgentでこれらのMMDのモデルとモーションデータが流用できるということは、音声対話システムのアバターとしてはむしろオーバースペックなくらいですね。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:MMDのモデルとモーションが流用できることの意味 (スコア:1, 興味深い)
#はてな経由とか面倒くさいんで直につべでいいや(笑)
Re: (スコア:0)
機能的なところではプロプラやオプソのもっと上級のツールがありますが、
導入のしやすさ、コミュニティの活発さというところで目的にそぐっている
というところかと。
Open JTalk + Julius + (スコア:3, 参考になる)
音声認識システムは名工大の独自開発
となっていますが、それは正しくありません。動画中でも触れられていますが、音声認識システムモジュールはJuliusというもので、詳しくはホームページ [osdn.jp]をご覧いただければわかりますが、現在の開発主体が名工大ということです。
また、音声合成エンジンはOpen JTalk [nitech.ac.jp]によるもので、自由に合成結果を出力できるデモページ [nitech.ac.jp]があります。動画を見ると、合成音声にこれに人間らしい「表情」をつけるために、HMM-based Speech Synthesis System; HTS [nitech.ac.jp]を仕様しているようです。
ですので、今回のポイントは、MikuMikuDanceの3Dモデルが音声を認識し、自在にしゃべることができるという点だと、思います。
MME (スコア:2, 興味深い)
MikuMikuEffectといい、外部ツールもすごいですねぇ
極北Pのboxelでのスクリプティングもすごかった...
機能的にplugin/hookとか難しいでしょうけど、Python バインディングとかあるといいのになー(無茶振り
M-FalconSky (暑いか寒い)
Re:MME (スコア:2, 興味深い)
東方カス子モデルの大量追加、物理演算値固定研究、MME、パーティクルクリエイターバージョンアップときてこれですよ。
MMD杯終わって落ち着いたかと思ったらここにきてなにやらブレイクスルー連発で言葉もないです。
いったいどこまで進んでいくんだろう……。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
はじめ見たときなんぞと思ったw (スコア:2, 興味深い)
音声認識が肝のはずなのに何ゆえ初音ミクなのか、と最初に疑問に浮かんだw
MMDを使うことで汎用性を持たせようとしたのだろうなぁ。
何か新しいものを作った、というより既知の技術の集大成としてこんなことできますよ、
ってアピールと受け取っていいんかしら。
そうでないなら音声認識をもっと前面に出してもらいたいものだけどもw
// そんなことより何故鏡音リンじゃないのかと!!!(:>^
Re:はじめ見たときなんぞと思ったw (スコア:1)
一般(?)へのアピールとして「この技術使ったらこんなことできるんだぜ!すげーだろ!インパクトあるだろ!」って言ってるのでしょう。
純粋に音声認識機能だけを出しても、音声認識の専門家以外には「すごいけど、それで?」って反応しか得られないでしょうから、そういう意味ではこういったアピールも重要です。
けれど、じゃあなんでその題材を選んだかというと(MMDの使いやすさ、コミュニティの活発さなどの要因もあるでしょうが)一番の理由はやはり「やりたかったから」でしょう。
1を聞いて0を知れ!
Re: (スコア:0)
ミク使うのは権利の壁だな。
Re: (スコア:0)
うすうす気づいているでしょ?
メイちゃんだけじゃダメなんです
ミクを堂々と動かしたかっただけなんです!
音声認識なんて飾りなんですよw
ミクプラス+ (スコア:0)
#売れそうな気がするー
Re:ミクプラス+ (スコア:1)
カラオケデートのイベントができて、彼女とヒトカラに出掛ける人が急増。
1を聞いて0を知れ!
よくわからんけど (スコア:0)
この場合、何次元?2.9くらい?
その頃電通大は (スコア:0)
「耳元でささやくヘッドホン」http://www.gizmodo.jp/2010/09/post_7676.html
「揉めるディスプレイ」http://www.gizmodo.jp/2010/09/post_7622.html
と何やら3次元電脳嫁の開発にいそしんでいると。まあなんなんだろもっとやれ
私の日のあなたの日本人の娘 (スコア:0)
日本のやつ、おじいさんと遊びにくることに、あなた中国おじいさんです、あなた達の女の人を、娘はすべて私にきれいに洗って、持って来てあなたのおじいさん私を譲って楽しいです、私はあなた達の日本のやつの花の女の子が好きで、特に年齢の少し小さい20歳以内の、大きい要らないこと、おじいさんは好きでありません.20歳以内の小さい花の女の子だけが必要です.おじいさんに遊び終わらせて、おじいさんはあめに食べます.
Re:萌えはカウンターカルチャ。あくまでシャレであって多大な血税投入してる国立大はその点を理解せよ (スコア:1, すばらしい洞察)
コメの内容はひどいがタイトル自体の指摘はすば洞じゃまいか。
T/Oで終わっておけばいいのに。
Re: (スコア:0)
と、考えるのは浅はかかしらね
# 母校なのでACで