aitoの日記: 7/25 SP&SLP研究会(午後だけ)まとめ
午前中用事があって外に出ていたので、2件目の招待講演から聞く。渡辺先生の講演が聴けなくて残念。
(SP-7) [招待講演]カーネル法によるベイズ推論とその応用
福水健次(統計数理研)
パラメトリックなモデルが容易には作れないようなときに、データだけで確率分布を推定してベイズ推論を行う方法。最初に普通のカーネル法の原理についての説明。線形識別・線形回帰・PCAなどの方法はデータ間の内積の行列(グラム行列)だけがあれば計算可能なので、内積の非線形写像を使うことで無限次元上でのデータ操作が可能。空間上の確率分布について、「確率分布がわかる」ということと「カーネル平均」がわかるということは1対1に対応するので、通常なら分布がわからないと不可能な検定などがグラム行列上で実行が可能。細かい式がよく見えなかったのが残念。あるサンプルxの条件付き確率を計算するときに、xと学習サンプルのカーネル関数の重み付き和で表現できる。重み自体はグラム行列から計算される。HMMにKBR(Kernel Bayes Rule)を応用した例とロボットの自己位置同定の紹介。
■パネルディスカッション(15:40-16:40)
「機械学習研究と音声研究の共通点、相違点」
司会:太刀岡勇気(三菱電機)
パネラー:滝口哲也(神戸大),南角吉彦(名工大),渡辺澄夫(東工大),福水健次(統計数理研)
・どのように問題設定をするか(理論→適用分野、適用分野→理論)
福水:汎用性を重視する。様々な分野に普遍的に存在する問題の定式化に意義があるが、個別の分野に適用できることも意識している。
渡辺:解ける問題だけを探して解いているわけではなく、よく使われている手法(HMMやニューラルネットなど)がどう解析できるかについて、さまざまな方法で調べている。
滝口:スペクトルを対象にするときにはNMFがうまくはまるが、ケプストラムには使えない。音声処理には非線形処理が必要なのでカーネル関数なども使うが、どのカーネルがよいかは試行錯誤。
南角:問題に合わせて手法を選ぶというより、枠組み自体をさまざまな対象に応用するという姿勢。音声対象であっても、生き残っている手法は汎用性が高い。
・共通の技術では扱いにくい問題:時系列、曖昧性、変動、環境の多様性など
汎用的な機械学習はあり得るのか(解くべき問題の特性にあわせてヒューリスティックにチューニングする必要はあるのか)
渡辺:データ量が解決する部分もあるが、モデリングが不要になるとは思わない。
福水:個別の問題の特性に合わせてチューニング・モデリングする技術はなくならないだろう。その自動化の技術は進展するだろうが、0にはならないだろう。データ量が重要なことは当然だが、DNNを使うためのチューニング・ヒューリスティックスは重要。チューニングが必要な部分が変化しているかも。
汎用技術を導入する際、工夫が必要だった点
滝口:障碍者の発話の認識に健常者の認識の知見をまず持ってきて、そこに工夫を加えるなど。データ量の話だが、データ量が重要になってくると大企業にがんばってもらわないといけない。
・今後の方向性。これまでは対象(画像、音声)別に分類されていたが、今後は技術(NNなど)別に研究分野が分類されてくるのか。モデル化の精度、近似の有効性、モデル構造の良さを客観的に測る方法など。
福水:モデルを考えるときに計算とは切り離せない。ベイズ推定はよいのだが複雑なモデルは計算が大変でうまく動かない。計算を念頭に置いてモデルを考えることが重要になるだろう。
・現実世界はスパースでデータがいくらあっても足りないときに、そこにモデルを導入することはどうか。
福水:それも重要。データが大きくなってくるとデータ量に対してサブリニアな方法を探すのも重要になっている。
・モデルの良さを測る方法についてはどうか。
渡辺:統計的推測はさまざまな分野で使われるようになってきた。モデルの良さを測るというのも目的が様々。説明しやすさ、モデルの予測精度など異なる目的がある。モデリングとその評価は、今後技術者にとって重要な能力になるだろう。
南角:モデルと計算量に関して、福水先生の意見と同じことを思っていた。データは増えてくるが解きたい問題も複雑になってくる。アルゴリズムにあったモデル、計算量に合ったモデルを考えることが重要ではないか。DNNなどはチューニングが難しいので、チューニングの容易さなども考慮することが重要そう。
滝口:コミュニケーションを扱っているので、障碍の有無によらず利用できる技術を開発している。今知られているモダリティだけではなく、さまざまな情報を統合的に扱えるモデルが必要になるだろう。
・パネリスト間の質疑
南角:音声認識でのモデル選択について
・DNNの構造の自動決定などについて?
渡辺:DNNの構造について情報量基準を使う研究もあるが、計算が大変。
篠崎:音声認識では、認識率で見れば最近上がってきているが、学習の過程を見ると音声データと書き起こしが大量に必要で、そこのコストが高い。人間は書き起こし無しで学習が可能。このような点がモデル構造や学習方法などで解決可能なのか?
南角:人間の脳は言語獲得のためのpriorが大量に入っているだろう。そこに大量のデータが与えられるので言語学習が可能なのだろうが、それが機械で可能なのかどうかはわからない。
渡辺:母国語ならば特別なことがなく認識できるので音声認識は(人間にとって)簡単だと思いがちだが、外国語学習を考えると音声認識は難しい課題。「自然にできるがコンピュータには難しい」という課題ではなくて、そもそも問題自体が難しく、それに対して現状の音声認識システムはよくやっている(将棋の名人に勝つシステムよりも上)と思うがどうか。
南角:人間の言語獲得はある時期にしかできないというのが難しさの元だと思うが、言語学習のためのしくみはきっと共通の原理があるだろう。そういうものが実現できればうれしい。
篠崎:対話戦略は複雑すぎて簡単な物しか実現できていないが、これもpriorの複雑さに起因するということか。
南角:対話も0から学習されているわけではなく、強力なpriorが働いていると思う。
西田:現在の音声認識はモデルを学習して認識しているが、人間は最初に一回学習するだけではない。機械学習では転移学習が話題になっていると思うが、後から追加で学習するような学習理論についての進展はどうか。
福水:全部を知っているわけではないが、一つはOnline learningの枠組み。データが与えられると、その範囲で最適なモデルが得られるとか、オンラインとバッチでそれほど性能が違わない、など。その他、ずっと学習をし続けるlifetime learningという研究をしている人たちもいる。機械学習として数理的な研究をしようとすると定式化が必要なので、機械学習分野での主流にはなっていないと思う。
太刀岡:カーネルの形を学習するような研究は。
福水:マルチカーネル学習のような物はあるが、カーネル自体を適応するような話は聞いたことがない。
大庭:現場の人には「何でもできるということは何もできないことだ」と言われたことがある。パターン認識やビッグデータ解析などは、現場主義の人たちからみると「切れ味が悪い」と感じているのではないか。「切れ味の鋭い」タスクを見つけていくためには、機械学習と個別の問題の研究者との密な連携が必要ではないか。うまくいったコラボレーションなどがあれば紹介してもらえないか。
福水:適切な回答は難しいが、一般的にはバイオインフォマティックスはうまくいっている分野だと思う。それは、問題の目的がはっきりしていて、データがきちんと取られているためではないか。機械学習の人たちは画像やドキュメントなど情報処理系の課題を念頭に置いていることが多かったが、最近は天文学など自然科学系、データのあるところなら何でも扱うということもある。
渡辺:自分自身は特異モデルについてずっと研究してきているが、今回紹介したWAICは特異点のないモデルでも階層ベイズモデルなどで有効であることに気づいた人たちがいて、ツールなどにも入れてもらっている。理論は現実とは関係ないと思いがちだが、特に海外だと有効そうなら実際の計算に使ってくれる人がいる。計算自体は簡単なので、むしろ理論は実際の課題と関係がないと思う「心の距離」の法が問題かもしれない。
滝口:タスクによっては8~9割しか使えなくても役立つこともある。うまい課題を見つければ現状の技術でも役立つ。
■ニューラルネットワーク(17:00-18:30)
(SLP-6) ディープオートエンコーダとDNN-HMMを用いた残響下音声認識
三村正人,坂井信輔,河原達也(京都大)
残響除去にDNNオートエンコーダを使う。音響モデルもDNN。残響音声をドライな音声に変換するDNNを学習して、それを確率推定のためのDNNにつなく。また、どの音素なのかを考慮するため、確率推定DNNの出力をオートエンコーダの入力に入れる。評価対象はリバーブチャレンジのデータ。フロントエンド+クリーン音声DNNで、マルチコンディション学習をしたDNNと同等の性能。フロントエンド+マルチコンディション音声DNNで性能が上がるが、まだ向上の余地がある。音素情報をオートエンコーダに入れることで少し改善。また強調音声に対する教師無し適応により性能をさらに上げることができた。
(SLP-7) DNNの出力確率を用いたSTDのリスコアリング方式
紺野良太(岩手県立大),李時旭(産総研),田中和世(筑波大),小嶋和徳,石亀昌明,伊藤慶明(岩手県立大)
おなじみサブワードによるSTD。サブワード間距離は従来は状態間のGMM分布間のバタチャリヤ距離を使っていたが、音声に対して異なる距離を使うため、DNNの出力確率をサブワード間距離の代わりに使った。マッチングの手法として、クエリのサブワード系列を擬似的にフレーム系列に変換して連続DPで照合する方法と、音声のフレームの方を間引いてクエリの状態系列と照合する方法の2つを比較する。DNNによる全音素の確率を保持しておくのかと思ったら、クエリごとにDNNによる確率を計算し直しているようだ。全部に対して確率計算をすると遅すぎるため、予備選択を行う。DNN確率を利用することで平均精度が向上。フレーム単位照合のほうがちょっと精度が高いが、それほど違わない。確率計算にGMMを使ったらうまくいかなかったとのことだが、本当かいな。
(SLP-8) MLPを用いた話者正準化に基づく音声認識の検討
久保田雄一,大町 基,小川哲司,小林哲則(早稲田大),新田恒雄(早稲田大/豊橋技科大)
通常ML-VTLNなどで行う話者正規化を3層NNで実施。参照話者を決め、それ以外の話者のスペクトル(FBANK)をすべて参照話者に合わせるネットワークを学習する。学習に用いるのは母音のみ。変換後のスペクトルをそのまま使うとかえって悪影響があるので、低域・高域部分は変換前の係数を、中域は変換後の係数を使う。このときに変換前と変換後をどれだけ使うかを調整することにより、VTLNよりも性能が向上。なんか全体的に妖しい感じがする。
■夕食後
SP企画「音声技術スーパーユーザーコンテスト」
音声技術を使った一発芸的発表。
・大庭(NTT) 人名想起
大庭さん35歳か。顔写真を見て「顔はわかるが、誰だったか思い出せない」というときの思い出し支援。ユーザーは思いついたことをともかく言って、それをヒントにシステムが顔と名前の候補を提示。対象は芸能人。名前の一部とか出演番組とかがわかればいいが、そうでないとクエリが難しすぎる、というところが話のネタ。
・秋田(京大) 音声認識を使った自動字幕作成・編集システム
音声認識で字幕の草稿を作って、それを専用のエディタで編集する。京都大のOCWコンテンツなどに字幕付与。専用ウェブサイトにビデオコンテンツと関連文書をアップロードすると字幕を付けてくれる(フィラー除去などの整形済み)。それをJavaアプレットでできたエディタで編集・修正する。
・柏木(東京大学)ミーティングレスポンスランダムジェネレーター
実は「合コンレスポンスランダムジェネレーター」。合コンにおける対話戦略を使った対話システム。ユーザー発話の合間にランダムに「すごい」「しんじらんない」「それで」とかを発話する。応答内容は「合コンさしすせそ」。DPZ的良さがある。
・毛利(東京大学)ヘッドマウントディスプレイを使った超臨場感型動画鑑賞システム
ミクさんが一緒に動画を見てくれる夢のシステム。HMDはエプソンのやつ。ミクさんは一つ前の発表のシステムを使ってお話の相手もしてくれる。せやな。AR画面の中で動画を再生するんではなくて、HMDがシースルーなので、画面に映っているテレビの向こうに本物のテレビを置いて見るという、画期的かつ幼稚園雑誌の付録的アイデア。
・近藤(東工大)Juliusを使った漫談(字幕あり)
基本的に話の内容をJuliusで書き起こして表示し続けるが、話の内容の特定のキーワードに反応してAAを表示したりシステムが芸をする。なかなか認識されなくて苦労していた。
毛利さんが最優秀発表ということで商品の鉄瓶をゲット。
7/25 SP&SLP研究会(午後だけ)まとめ More ログイン