パスワードを忘れた? アカウント作成
10767485 journal
日記

aitoの日記: 3月15日 音声ドキュメント処理ワークショップ

日記 by aito

9:45-11:00 索引付け

距離順STDにおける索引の検索効率改善と複数検索語の同時検出
○大野哲平, 秋葉友良(豊橋技科大)
あらかじめ認識音節列と全音節との距離マトリクスを作っておいて,検出時に距離の近いところから投票により単語候補を見つけ,最後にDTWで検証する方法.基本的な方法では,最初の検出時には音節の挿入脱落は考えていないので,音節挿入脱落によって性能が下がることがある.そこで投票方法を工夫することによって
第1段階で候補が漏れてしまうことを防ぐ.DTW全探索とほぼ同じ性能で速度は30倍.また,複数の検索語を同時に検出して距離順に提示するアルゴリズムを提案.
前の手法に対して,「投票時に工夫するのではなく,投票結果の時系列の集計の仕方で同じことができるのではないか」という中川先生の指摘.鋭い(けど,よく考えるとちょっと違うような).

Suffix Arrayを用いた高速STDのための検索閾値の調整手法
○三浦成一, 桂田浩一, 入部百合絵, 新田恒雄(豊橋技科大)
パワポのバージョンの問題でうまく映らずちょっとごたごたした.1つの単語を複数の部分に分けて,サフィックスアレイによる高速検出を行う方法で,分割されたそれぞれの部分から検出される候補数にばらつきがあるので,候補数をそろえるために各部分単語に対する検出閾値を調整する.今回の方法では閾値を段階的に緩和する方法(反復深化的探索)を使うので,前の検索結果での候補数から次に閾値を緩めたときの候補数を推測し,それが各部分で同じになるようにした.また,音素の置換誤りと挿入脱落誤りの候補に分けて推測を行ったり,音素系列に依存した推測を行ったりした(こちらはあまり効果がない).

ビット演算に基づく高速な音声ドキュメント検索語検出
○北研二(徳島大学), 松本和幸(徳島大学), 吉田稔(徳島大学), 柘植覚(大同大学), 北岡教英(名古屋大学), 武田一哉(名古屋大学)
北先生が自ら発表.ドキュメントを認識した音節列に対して,音節のn-gramをハッシュ関数で128bitのビット列にする.同じようにクエリの音節列をハッシュのビット列にして,ハッシュ値同士のハミング距離によって音節系列間の距離を計算する.ハッシュ関数は,音節の全種類それぞれ1ビットずつ割り当てて,その音節が存在する場合はビットを1にするという簡単なもの.これであたりを付けて最後はDPマッチング.ビット演算で距離計算ができるので高速.総額10万円未満のノートPCでも動く.

3/15 11:10-12:00 音声中の検索語検出
ベクトル量子化に基づいた音声中の検索語検出における検出結果の統合
○坂本伊織, 工藤祐介, 山下洋一(立命館大)
入力音声のMFCCをセグメント量子化し,そのVQコード列を照合する.音素とVQコードの対応は話者依存.また,サブワードのフレーム長分布もモデル化し,検出するときのスコアに加える.さらに,複数の条件(コード対応の学習条件:単語か音節か,N-bestがあるか)で検出を行った結果を統合することで性能が向上.

キーワード集合をクエリとする最良照合STD方式
○堂元健太郎, 宇津呂武仁(筑波大), 古屋裕斗, 西崎博光(山梨大)
入力音声を認識して音素遷移ネットワーク(音素単位のconfusion network)を作り,それに対して音素列をマッチングして索引を作る方式.過照合による適合率の低下が問題.提案法では,単一のキーワードだけでなく,キーワード集合をあらかじめ用意しておき,それに対する索引を作るのが特徴.キーワード集合をあらかじめどう作っておくかは不明.キーワード集合の各キーワードに対してマッチングをして,時間的に重なるキーワードのうちスコアが低いものを削除する.CSJに対する実験では,学会講演については改善しなかったが,模擬講演については改善した(未知語率が高いため).また,山梨大収録の模擬講義音声についてはちょっと改善.さらに改善手法として,競合候補の中でスコア最良のものを競合スコア全部に付与する方法を試して,さらにちょっと改善.なんか全体的な検索システムの枠組みがよくわからん.

13:00-14:15 音声クエリ
分布間距離ベクトル表現による音響的類似度を利用したテキスト及び音声クエリからの音声検索語検出の改善
○牧野光晃, 山本直樹, 甲斐充彦(静岡大)
学生さんに○がついてるけど甲斐先生が発表.サブワード単位での距離計算によるスポッティングに加えて,2パス目でHMMの状態間のバタチャリヤ距離(BD)または各状態からすべての状態へのバタチャリヤ距離のベクトル(DDV)の間のノルムで詳細な距離計算を行う.最終的にはBDとDDVを両方使う(BD-DDV)手法が有効.

音声クエリの複数認識結果を利用した音声ドキュメント中の検索語高速検出法
○坂本渚, 中川聖一(豊橋技科大)
音素認識結果のn-gramインデックスを使ったSTDで,複数の音響モデル(GMM-HMM1種とDNN-HMM2種)からの認識結果を組み合わせることで検出性能の向上を図る.合わせ方は「単に複数の候補を合わせる」方法と「多数決をとる」方法を比較した.どちらもRecall-Precisionカーブの端の方ではやや差が出るが,あまり変わらない性能.

音声ドキュメントからの頻出発話語句の発見
○米倉千冬, 古屋裕斗, 澤田直輝, 名取賢, 西崎博光, 関口芳廣(山梨大)
音声中で何度も発話されている単語を検出する.そういう単語をリストアップすることで,音声ドキュメントに対する(人間が参照するための)索引を作るのが目的.方法としては,連続音声認識結果から音素遷移ネットワークを作り,その中から頻出単語を検出するという3パス.マッチング処理は,ネットワーク同士のIRIFCDPみたいな手法.対応する音素列がわかったら,その音素列がもともと属していた単語認識結果を使う方法と,音素列をかな文字列にしてかな漢字変換を使う方法の2つを試した.実験の結果では,全体的には再現率が上がらない感じ.評価の仕方がおかしい気がする.

14:25-15:40 音声内容検索
段階的検索と擬似適合性フィードバックを用いた講演音声ドキュメント検索
○南條浩輝, 西尾友宏, 吉見毅彦(龍谷大学)
疑似適合性フィードバック(PRF)によるクエリ拡張を行うと,検索単位(パッセージ)が小さいときには効果があるが,単位が大きい(全講演が1単位とか)場合にはかえって性能が悪化する.そのため,PRFでクエリ拡張をするための単位としては短いパッセージを使い,それでクエリを拡張したうえで長い文書単位の検索を行う.さらに最初のパッセージ検索を高精度化するため,クエリ拡張のための最初の検索において,まず長い単位で検索を行って文書を選んだうえで,その中のパッセージを2段目で選ぶ.また,最初の検索から関連語を抽出する場合に,検索された複数のドキュメントを1つにまとめて関連語を抽出するのではなく,それぞれのドキュメントから抽出された検索語のANDをとってクエリ拡張に使う.最後にクエリ拡張した結果としない結果を統合して性能を上げる.

種々のテキスト検索モデルの頑健性向上による音声ドキュメント検索の高精度化
○北岡教英(名古屋大学), 市川賢(名古屋大学), 柘植覚(大同大学), 武田一哉(名古屋大学), 北研二(徳島大学)
検索精度を上げるための地道な努力.ベクトル空間モデル,クエリ尤度モデル,適合モデルの3つをそれぞれ改良.ベクトル空間とクエリ尤度モデルについてはWeb文書を使ったクエリ拡張を行う.適合モデルでは,Web文書から検索質問に関連する単語で検索質問のモデルを拡張.

適合性と文書構造を併用した音声ドキュメント検索における適合音声区間決定
○加瀬健太, 秋葉友良(豊橋技科大)
パッセージ検索のための文書分割.従来のように固定長の区間に区切るのではなく,テキストタイリング(Hearst法)および文末表現を使って文書を分割する.分割されたそれぞれのセグメントに対して索引を作って検索を行う.検索時には,適合度が一番高いセグメントをまず見つけて,そこを中心に発話単位またはセグメント単位で様々な長さの区間を設定して適合度を測り,最も適合度の高い区間を最終結果とする.さらに,セグメント分割の時に使う「セグメント境界スコア」も適合度スコアに加えて評価する.検索方法はクエリ尤度モデルと適合度モデル.テキストタイリングよりも,文末表現によるセグメント分割の方が高性能.境界スコアを利用する方法は性能改善せず.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

読み込み中...