aitoの日記: 7/26 SP&SLP研究会まとめ
■一般講演(9:00-11:00)
(SLP-9) 行列変量正規分布の混合モデルとその声質変換への応用
齋藤大輔,土井秀信,峯松信明,広瀬啓吉(東京大)
統計的声質変換の変換関数について。従来は2つのn次元音声特徴量を連結した2n次元ベクトルのGMMなどで2つの音声の同時確率をモデル化するが、そうではなくn行2列の行列を特徴量としてモデル化する。最初に行列のガウス分布を定義し(共分散に制約がある多変量正規分布と等価)、それを混合分布に拡張。また、これを拡張して2話者だけでなく3話者以上を同時にモデル化することができる。二人分の変換に関係ない3人目を追加すると、メルケプストラム歪みがほんのちょっと改善。
(SP-8) 強化学習を用いたnQAM通信上での音声品質向上への検討 ~ ジッタ発生に対するQ学習による相殺効果を考えて ~
岡田一秀(ミクロネシア連邦大)
音声通信の話のようだが、時間のほとんどをQAMの説明に費やす。何だったんだろう。ジッタの補正を強化学習でやって、その時の報酬関数を復号した音声の特徴から計算するということのようだけど、ビットエラーがある復号信号からそのまま音声を復元するのか?
(SLP-10)大語彙連続音声認識と音節N-best音声認識を用いたSpoken Term Detectionの高精度化
長野徹,倉田岳人,鈴木雅之,立花隆輝(IBM),西村雅史(静岡大)
コールセンターのモニタリングのためのキーワード検出。コンプライアンス違反の対応や顧客からの苦情の発見が目標。自動でキーワード検出をすると検出数が多すぎる場合があるので、ユーザが再現率・適合率を簡単に操作できる仕組みを作りたい。連続音声認識の結果からキーワード出現区間を同定し、その区間の連続音節認識のN-best候補を使ってキーワード信頼度(音節認識結果に単語ベースの結果の音節列が出現する順位)を算出する。キーワード検索のときに最低順位を指定するとキーワード候補の絞り込みができるという仕組み。音響尤度で絞り込むよりも高い再現率で高い適合率が得られる。
(SP-9) 複数スマートフォンで収録された多人数会話音声における対話グループ検出と話者決定
岩野公司,飯塚瞳子,齋藤かの子,米山修平(東京都市大)
複数の部屋に複数の話者がいてそれぞれ話をしながらスマートフォンで録音をしている状況で、録音内容から「会話のグループ」(どの録音がどのグループに属するか)と「話者」を同定する。各部屋でベルを鳴らして複数録音間の同期を取る。録音音声の冒頭から代表フレームを抽出し、その特徴量を連結してクラスタリングすることで会話のグループを決定(今回はグループ数既知)。特徴量はMFCC+logPower+Δ。クラスタリングの結果では条件がよければ9割ぐらい当たる。話者決定では、各話者のモデルで系列を評価し、Viterbi探索によって話者区間を決定。話者の事前情報(その話者の読み上げ音声とか)を使えば当然性能が上がる。話者決定の性能はF-measureで64%ぐらい。
7/26 SP&SLP研究会まとめ More ログイン