aitoの日記: 音声研究会・音声言語情報処理研究会@天童温泉 7月20日まとめ
オーガナイズドセッション:マルチモーダル情報によるコミュニケーション環境理解
招待講演(9:00-11:00) 座長:河井 恒(KDDI)
SP-2 スマートポスターボード: ポスター会話のマルチモーダルなセンシングと認識
河原 達也(京大)
今後の対話研究では、Multi-Modal, Multi-Party, Human-Human Interactionのどれかあるいは全部が必要。
CRESTのプロジェクト。人間同士の音声コミュニケーションの理解。対象はポスターセッションの発表。
内容ベースのインデキシングから、インタラクションベースのインデキシングへ。
マルチモーダルセンシングと解析。観測できるイベントとして、音声・映像・動作センシングから、発話、笑い、バックチャネル、うなづき、視線、指差しを検出。そこから注意・理解・興味などの心理状態へのマッピングを行うのが最終的な目標。
センシングデバイスとして、最初は直接身につけるようなものを使う(最終的な目標はマイクとカメラ)。目標として、聴衆の反応(良い反応、悪い反応)を分析・検出する。モーションキャプチャ、3次元動きセンサ、カメラ、アイトラッカ、マイクロホンアレイなど。センサをつけることで、非言語情報のラベリングがほぼ自動でできる。
あいづちの分析。韻律の変動が多いタイプとそうでもないタイプがあり、変動が多いもの(ふーん、へえ、あー)が興味レベルと関連する。笑いが起きている場所と「へえ」がある場所に注目。「へえ」の部分は興味のあるスポットといえる。
非言語情報から、聴取者の質問行動を予測する。発表者の発話、それに対する聴衆の視線などの情報から、聴衆の中の誰がいつ発表をするかを検出。聴衆の誰かが質問をする直前には、発表者がその聴取者を見ている。聴取者は発表者ではなくポスターを見ていることが多い。機械学習によって「誰がいつ発話するか」を予測。「いつ」の予測にはうなづきは効かないが「誰」の予測には有効。
発話のタイプとマルチモーダル行動。「踏み込み質問」とうなづきの関係。
スマートポスターボードシステム。19チャネルのマイクロホンアレイと6台のカメラを使うデラックスなシステムと、Kinectを使うお手軽システムの2つ。
SP-3 複数人会話シーン分析の研究と今後の展望
○堀 貴明、荒木 章子、大塚 和弘、中谷 智広、中村 篤、大和 淳司(NTT)
人間同士のコミュニケーション理解のための会話分析。映像、音声、話者ダイアライゼーション。
会話シーン分析。when, where, who, whom, what, how, why の情報を自動抽出。他の類似プロジェクトに比べて、オンラインでリアルタイム性を重視。
会話シーン分析システムのプロトタイプ。おもにwhenからwhatあたりまでをカバー。全方位センサを利用し、複数人会話のマルチモーダル情報をリアルタイム取得。会話シーンブラウザを使った可視化。
映像処理技術。マルチモーダル全方位センサ。2台の魚眼レンズで全方位を撮影する。解像度が高く、映像中の顔も高い解像度で取れる。画像処理の役割は顔の位置と姿勢の推定。顔方向追跡アルゴリズムは疎テンプレートコンデンセーション追跡法。特徴点のみからなるテンプレートの照合とパーティクルフィルタの組み合わせ。GPUによるパーティクルフィルタ計算の高速化。メモリベースパーティクルフィルタによる追跡の頑健化。発話者と視線方向の推定。視点の変更。ブラウズ中に発話者を見るなどが可能。
音声処理技術。誰が何を話したかを認識する。音声分離・強調によるマルチチャネル音声認識。話者ダイアライゼーション。音声・雑音識別と音源方向の情報から、フレームごとに話者を特定する。これを映像情報と組み合わせて精度を上げる。
音声分離をしても完全に消えない「消し残り」の音声による挿入誤りを削減するため、ダイアライゼーションの結果を組み合わせて認識結果を棄却する。認識とダイアライゼーションを同時に行うので高速で、しかもリアルタイムに動く。
音声認識。識別モデル、WFST。識別的言語モデルもWFSTで統合して認識。
応用例。オンライン会話支援タブレット。収録・自動書き起こし内容をオンラインでタブレット上に表示。議事録作成等に活用できる。
オーガナイズドセッション:マルチモーダル情報によるコミュニケーション環境理解
一般講演(11:30-12:30) 座長:岩野 公司(東京都市大)
SLP-5 ロボットの動作によって人間の発話開始時間を制御できるのか?
○中山 貴之,廣井 富,黒田 尚孝(大阪工大),三宅 真司,伊藤 彰則(東北大)
ロボットとの対話で、ロボットが発話終了したあとの動作タイミングによって、その後の人間の発話タイミングがどう変わるかを調査した。ロボットの発話が終わってからユーザに視線を合わせるまでの時間を遅らせると、その分ユーザの発話開始時間を遅らせることができる。ミュージアムロボットなどで同じような研究があるというコメントが河原先生からあった。
SP-4 画像を手がかりとした時間的に適応可能な雑音推定による音声認識精度の向上
に関する研究
○藤林 一師、今村 弘樹(創価大)
画像情報から雑音が発生しているのかどうかを識別し、あらかじめ知っているその雑音のスペクトルをSS法で減算するというアイデア。実際にやっている実験は画面上の単純な図形を雑音源としていて、雑音も高さの違う純音なので、ナイーブすぎる。同じようなアイデアを実問題に適用することができれば面白いと思うのだが(近くを車が通った、とか)。
昼食(12:30-13:30)
音声入力・区間検出 (13:30-15:00) 座長:峯松 信明(東大)
SLP-6 複数ピンマイクで収音された会議音声の重畳区間検出
○横山 諒・那須 悠・篠田 浩一(東工大)・岩野 公司(東京都市大)
ピンマイクで会議音声を拾うときに、複数のピンマイク入力を比べることで、複数話者が同時に発声しているかどうかを検出する。基本的には音声パワーと複数マイク入力間の振幅スペクトル相関を使う。回り込み音声をキャンセルするため、Cross-Channel SSを使って相手の音声を自分のマイクの信号から差し引く。相関をとるのはパワースペクトルよりも振幅スペクトルがいいということだけど、それなら対数スペクトルだとどうなんだろう。
SP-5 音声と騒音の密度比推定を用いた音声区間検出法
○太刀岡 勇気・花沢 利行・成田 知宏・石井 純(三菱電機)
尤度比を用いたVADの改良。普通は音声と雑音の尤度を計算して割り算をするのだが、この研究では尤度比を直接推定する方法(KLIEP法)を適用。KLIEPは尤度比を混合ガウス分布で近似する方法。学習アルゴリズムの説明はよくわからなかったのだが、峯松先生の質問でどういうことをしているのかが理解できた。また、検出しきい値を自動決定する。
SLP-7 音声情報案内システムにおけるBag-of-Wordsを特徴量とした無効入力の棄却
○真嶋 温佳、トーレス ラファエル、川波 弘道、原 直(奈良先端大)、
松井 知子(統数研)、猿渡 洋、鹿野 清宏(奈良先端大)
たけまるくんシステムへの意図しない入力を棄却する方法。従来の雑音GMMによる識別だけでなく、認識結果からのBag-of-Wordsを使った言語特徴も使う。特徴量は6つのGMMの尤度、BoW、発話時間およびSN比。識別機はSVMとMaxEnt。BoWだけを使ってもGMMより少し良くて、全部の特徴量を使ってSVMで識別した場合が最良。
話者・分析・合成 (15:30-17:30) 座長:森 大毅(宇都宮大)
SLP-8 i-vector に基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用
○福地 佑介、俵 直弘、小川 哲司、小林 哲則(早稲田大)
i-vectorはUBMと発話依存GMMの差分を集めたスーパーベクタを圧縮したもの。そのi-vectorのコサイン類似度とNMFを使ってクラスタリングを行う。従来法(GMM間の類似度によるクラスタリング、i-vectorを使ったk-meansクラスタリング)と比べて高性能。また、話者数を決める場合には、NMFのアクティベーション行列のスパースネスを指標とすれば(ある時間に1つのベクトルだけがアクティベートされる)、最適なNMFの圧縮次元(=話者数)を決めることができる。i-vectorはなぜよいのか、NMFを使うことができるのはなぜかという基本的な内容について質疑が盛り上がった。
SLP-9 F0パターン生成過程の確率モデルによる藤崎モデルパラメータの推定
○吉里 幸太(東大)、亀岡 弘和(東大/NTT)、齋藤 大輔、嵯峨山 茂樹(東大)
フレーズ指令やアクセント指令からF0が生成される過程を確率モデル化し、観測されたF0パターンから各種指令を推定する方法。以前亀岡さんが音響学会で喋っていた話と同じなのかな。指令の生成をマルコフモデルでモデル化し(何の指令も生成されないという状態を含む)、無声区間は本当のF0に雑音が重畳されたとしてモデル化する。元になる指令はEMアルゴリズムで推定する。質疑が盛り上がった。
SLP-10 分散共有フルコンテキストモデルによるHMM音声合成に関する検討
○高道 慎之介, 戸田 智基(奈良先端大), 志賀 芳則(NICT), 河井 恒(KDDI),
Sakriani Sakti, Graham Neubig, 中村 哲(奈良先端大)
HMM音声合成の高品質化。分散共有フルコンテキストモデルは、すべての音声素片に対応するHMMを作成する方法(ただし共分散は複数クラスで共有)。通常の素片選択での素片に共分散が付いていると思えばいいのかな。通常のHMM合成と比べて高品質で、HMM合成と同じように適応などが可能。
SP-6 顔画像を用いた個人識別による話者適応型音声認識手法
○原 信一,今村 弘樹(創価大)
本人は来ていたのだが、発表スライドが入ったUSBメモリが壊れてしまったとのことで発表キャンセル。
夕食(18:00-19:30) 会場:本館2階「白鳳」 (立食)
このあと研究室紹介なのだが、その前に信学会ロードマップの紹介と議論(速水先生)。
30年、40年後に必要な技術についてミニ議論。難しいよね。
若手研究者による研究室紹介 (20:00-21:00) 座長:鈴木 基之(大阪工大)
鈴木先生が司会のはずが、東大の齋藤さんを司会にご指名。
・三菱電機 情報技術総合研究所(太刀岡 勇気)
セッションの趣旨が伝わってなかったらしく真面目っぽい発表かと思ったら途中でグダグダな感じ。深山くんがいきなり競馬の音声合成の質問をしたのはびっくりした。
・NTT コミュニケーション科学基礎研究所(久保 陽太郎)
ネタ満載の発表。困ったら藤本さん。
・奈良先端科学技術大学院大学 中村研究室(高道 慎之介)
M1勧誘ムービーを流す(BGM:地上の星)。それにしても規模が大きい研究室だね。
・東京大学 嵯峨山研究室(深山 覚)
スライドが40枚以上あるプレゼンで紹介。半分はOrpheusの紹介。
・岐阜大学 速水研究室(田村 哲嗣)
この研究会にくる新幹線で天皇陛下にあった話。そのあと研究室紹介だが、音楽や医療情報、自然言語もやっている。
音声研究会・音声言語情報処理研究会@天童温泉 7月20日まとめ More ログイン