aitoの日記: 音声研究会・音声言語情報処理研究会@天童温泉 7月19日まとめ
SLP-0 音声書き起こし支援システムに向けた自動頭出し機能の開発と評価
○芦川 平, 永尾 学, 西山 修, 池田 朋男(東芝)
2月に事故で発表できなかった人の再発表。音声書き起こし支援システムToScribeの説明(β版公開中)。クラウド対応の書き起こし支援システムで、雑音低減、話者の自動分類、自動頭出し、話速変換、表記揺れの統一などの機能がある。この発表では自動頭出しの説明と評価。発話の自動書き起こし結果のラティスと、ユーザが書き起こした内容を照合して、まだ書き起こしていないと推定される場所を自動推定する。それがだめなら強制アライメントで書き起こし終了位置を推定する。それでもだめなら一定時間もどる。既存手法(一律に一定時間もどる)に比べて、本当にもどるべき位置に対して実際に頭出しをした位置の誤差が小さかった。実際に使うと利用頻度がそれほど多くなく、頭出し精度が悪いこともそのひとつの原因。音声認識の結果を書き起こしに使うのではなく、あくまで書き起こし支援だと割り切ってアライメントだけに使っているところが面白い。
SP-1 Automatic pronunciation error detection of Chinese using SVM with
structural features
○Tongmu Zhao(Tokyo Univ.), Akemi Hoshino
(Toyama National College of Technology)
Masayuki Suzuki, Nobuaki Minematsu, Keikichi Hirose (Tokyo Univ.)
峯松先生的構造的表象を使った中国語の発音誤り検出。日本人の中国語学習者が対象。データベースはCRN(Chinese Read by Natives)とCRN-E(CRN with Error), NICT Chineseを利用。特徴量としてGOP、尤度比、構造的特徴+SVMを比較。色々な評価指標の結果が列挙されているのだが、結局どうなのかがよくわからない。結果としては、GOPや尤度比を用いた方法よりも、構造的表象+SVMの方が精度が高い。中国語ネイティブがわざと間違えたデータベースを使うのはどうよ、みたいな質問。
SLP-1 携帯端末用の音声情報案内システム開発に向けたネットワークサービスの検討
○原 直、川波 弘道、猿渡 洋、鹿野 清宏(奈良先端大)
たけまるくんをベースとした音声対話アプリ作成のプラットフォーム。たけまるくんのネットワークサービスをRuby on Rails上に実装した。クライアントはiPhone用。システムの紹介。音声対話をWebアプリケーションとして作成して手軽に利用できるようにするというのは良い方向だと思う。位置情報に対応して別なシステム(別なキャラクタを使った)を切り替えて使うという提案。たけまるくんとかねたんが協調するとか胸熱。基本的には、完全に別なWebアプリ同士がサーバ間で通信するという仕組みを想定しているようだ。かねたんの実物はなかったが、たけまるくんとキタちゃんの協調は実装しているらしい。
対話システム (16:00-17:00) 座長:鈴木 基之(大阪工大)
SLP-2 質問応答データベースを用いた聞き返し発話の検出に関する検討
○三宅 真司(東北大)、廣井 富(大阪工大)、伊藤 彰則(東北大)
うちの三宅くんが発表。ロボットや家電操作などの操作のための対話システムとして、たけまるくん型QADBを複数組み合わせて対話システムを構成する場合に、どのサブシステムで対応して良いかわからない発話を自動検出する。原理的には、入力発話の認識結果を複数のデータベースの用例と比較して、複数のデータベースが同程度に似ていたら、聞き返しが必要と判断する。通常の用例選択で十分じゃないの、という質問があって、十分に答えられていなかったと思う。
SLP-3 登録キーワードと汎用言語モデルを用いた音声認識部・応答選択部の密結合に
基づく統計的音声対話システム
○平野 隆司、加藤 杏樹、南角 吉彦、李 晃伸、徳田 恵一(名工大)
一問一答型音声対話。キーワードとその答えをデータベースに登録するタイプ。この時、認識文とキーワードを統計的にうまく対応付けるために、キーワードからの統計的文生成モデルを学習する。キーワードから文を生成し、生成文と応答文とを対応付けるCRFを学習する。キーワード+ガベージモデルを使ったスポッティングを使って入力からキーワードを抽出し、CRFを使って応答文を選ぶ。単にキーワードだけを使うよりも高性能。キーワード以外の単語にも応答選択に有効な特徴が含まれていて、それが補間されることによって性能が上がるということらしい。
畑岡信夫先生追悼企画 (17:00-17:30) 座長:速水 悟(岐阜大)
先日急逝された東北工業大学の畑岡先生を偲ぶ会。速水先生が畑岡先生の業績紹介。次に中川先生がCMU時代の写真とその後の話の紹介。新田先生が企業時代からの思い出を語る。
夕食(18:00-19:30) 会場:別棟2階 宴会場「花笠」
SLPパネルディスカッション (20:00-21:30) 座長:篠田 浩一(東工大)
SLP-4 クラウド時代の新しい音声研究パラダイム
司会は篠田先生。若手5人がパネリスト。
・篠田 浩一(東工大)
SLPの実用化について。ガートナーの「期待度」曲線。
SLPの白物家電化。生き残るためには「土俵を変える」。
SLP音声・音響クラウドWGの紹介。
・西崎 博光(山梨大)
音声ドキュメント処理グループ。各種ツールが揃ってきている。
音声のビッグデータ。多様な声質の音声を収集してコーパス化。
音声ドキュメント検索課題の基本的な説明。
・篠崎 隆宏(千葉大)
音声イベント認識・耐雑音処理グループ。将来的にはもっといろいろなデバイスがクラウドにつながる。
ありうるアプリの例。対話ヒストリー記録(自分が過去に誰と何を話したかがわかる)。トピック地図(国際会議などで誰がどこでどんな話題について話しているかがわかる)。プライパシーへの配慮が必要。
録音した音声のイベント検出と記号化。キーワード追跡。対話グループ検出。盛り上がり検出。対話の目的の検出。
・岩野 公司(東京都市大)
話者認識・Diarization。誰がいつ発話したかを当てる。ICASSP5年間のDiarization関係の評価データ、評価尺度、手法を調査した。過去22件を調査。NISTのMeetingデータ、News, NISTのTelephoneデータなど。日本の中ではこういう世界標準のデータが使われていない。評価尺度としては、Diarization Error Rate, Purity, Rand index, FAR, Missed Detection Rateなどが使われている。手法のトピックとしては、モデル学習・選択、特徴抽出、システム統合、距離尺度など。
最近よく使われている手法。因子分析に基づく特徴量。i-vectorなど。
音響情報以外を用いた手法。話者の空間的な位置情報。話者交代のパターン。
オンライン処理。音素情報を利用したBICに基づく話者セグメンテーションとクラスタリング(NHKのグループ)。HMM+モデル選択。
次の展開。音響単位の自動生成への応用。話者Diarizationを短い単位に応用すれば音素セグメンテーションができる。
・小野 順貴(NII)
複数マイクによる音響信号処理。遠隔マイクロホンの問題。
基本的なマイクロホンアレイ技術の紹介。
今後の課題1:音声認識との統合。SN比の向上が必ずしも認識率の向上にならない。不確定性デコーディングと動的分散制御。認識精度が最大になるようなアレイ信号処理。
今後の課題2:非同期マイクロホンの利用。音源やマイクロホンがたくさんあれば、非同期のマイクロホンであっても原理的に同期できる可能性がある。同期を取るための無線チャネルの利用、同期を取らなくてもいいエネルギーベースの手法など。
・原 直(奈良先端大)
協調的音声・音響アノテーション。Cloudではなくcrowd-sourcingの方を考える。
Mechanical Turkだけでなく、CrowdFlowerとかCrowdCloudとか。パターンとしては「音声データの収集」「音声データのラベリング・書き起こし」「システムの性能評価」の3つが主流。
日本の例ということでPodCastleの紹介。SocialIME。協調的映像アノテーション(Synvie、ニコ動など)。用例の森。
ゲーミフィケーション。foursquareなど。報酬は簡単なもので良い。
労力を提供するユーザのやる気をいかに引き出すか。システムを自分の手で改善できる。システム改善の「見える化」。
音声研究会・音声言語情報処理研究会@天童温泉 7月19日まとめ More ログイン