パスワードを忘れた? アカウント作成
7769925 journal
日記

aitoの日記: 3月8日 情報処理学会全国大会「話者認識・感情認識」

日記 by aito

またもや座長。地元だからいいよねとか思ったろう!>プログラム編成委員

・継続利用する話者照合システムにおける性能の経時変化に関する検討(東京都市大)
最近の話者認識手法を使うと、話者音声登録からの時間経過によって性能が同変化するかを調べた。手法はGMM-UBM、登録発話は10数字。音声登録期間は2週間程度必要。3週間登録を続けるとすると、1週目は1回10発話が必要で、2週目以降は発話を減らすことができる。

・自己組織化マップを用いた音声認証・チューニングによる認証制度の向上(神奈川工大)
SOMを用いた話者認証だが、基本的なやり方がわからないが、どうも発話全体をFFTしたもののバンドパスフィルタ出力をSOMで2次元に落としているようだ。上限の周波数をどうするかと、音声のレベルのばらつきを平均する方法を検討している。よくわからない。SOMを使うことにどういう意味があるのかという質問が岩野先生からでたが、いまいち要領を得なかった。

・話者の負担を考慮した話者識別と音響モデルの検討(香川高専)
会議音声のダイアライゼーションだが、話者交代の特徴を検出する話のようだ。「話者の負担を考慮した」というのは事前の話者登録が要らないことを指している。研究の特徴として「話し手の特徴」(話者交代のためのキューなど)を使う。具体的には文末のF0の上下と音素の伸ばし具合を使うようだが、なぜか特徴量にF0が入っていないような。個々で注目している特徴がどの程度本当に話者交代に関連しているかは不明。

・個人の音声特徴を適応的に抽出するリフティングウェーブレットフィルタの設計(九大)
リフティングウェーブレットは従来のHPF-LPFではなく最初からバンドパスフィルタが作れるウェーブレット変換。さまざまな分解能のフィルタバンクを作り、話者特徴を表す帯域を強調する・・・と思ったが、なぜか評価指標にPSNRを使っている。いまいち的感じ。

・自然対話中の発話対における音響特徴量に基づく感情の程度推定(東京工科大)
複数発話から感情を推定する。対象は自然な対話。対話音声の発話ごとと、同じ話者の2発話を1つにしたものの2種類を被験者に聞かせて、「怒り」「恐れ」「喜び」「悲しみ」の4つの程度をそれぞれ主観評価する。音響特徴量20種類を重回帰分析して4つの感情の程度を推定する。文頭・文末に関する特徴を加えた方がよい結果。また、先行発話の特徴を使った方がよい。

・対話音声から受ける4種の印象と分節的特徴との関係の分析(東京工科大)
音声の「印象」の評価。印象として、「穏やか-激しい」「明るい-暗い」「不快-快」「威圧-謙虚」の4つを使っている。音響特徴量の「韻律的特徴」としてF0とパワー関連、「分節的特徴」としてMFCC1次元目とF1・F2周波数を使う。後者は分節的特徴ではなくて声質だろう。両方使った方がよいということだが、まあそうだろう。

・音声を用いたサポートベクタマシンによる感情認識(東京工科大)
表情と音声を使った感情認識をやりたいが、今回は音声のみ。音声をGHAで分析している。特徴量はF0のみ(F0、F0の正弦波成分の振幅、F0の余弦波の振幅)。

・音楽データを用いた発音時刻の検出(早稲田大)
音楽信号の発音検出。なぜこのセッションに入ってるんだろう。HMMを使って発音のベイズ的確率モデルを使う。全体のモデルはHMMだが、パラメータ推定はMCMC。問題に対して道具が豪華すぎる気がする。特徴量は、短時間パワースペクトル、位相、パワースペクトルの時間変化。楽器はピアノのみ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家

読み込み中...