2016年7月28日～29日 SP/SLP研究会＠天童温泉 | aitoの日記

aitoの日記： 2016年7月28日～29日 SP/SLP研究会＠天童温泉 0

日記 by aito 2016年08月08日 10時33分

7月28日（木）

■音響モデル・適応化（14:00-15:30）

(SP-1) 英語レベル連結DNN音響モデルを用いた日本人英語音声認識の評価
○河内祐太，政瀧浩和，浅見太一，青野裕司（NTT）
非ネイティブ（日本人）英語発話の認識。GMM-HMMではMAP適応などが使えるが、DNN-HMMだとうまく適応できないので、ネイティブ性を表す特徴量を作ってそれをネットワークに入れる。具体的にはフレームごとに言語を判別するニューラルネットを作って、そのボトルネック層出力を認識用DNNの入力とする。ネイティブ性の識別に寄与するのは子音ではr,v,fなど、母音ではei,ouなど。1ポイントぐらい改善。

(SP-2) 基底fMLLRのための効率的な基底選択と重み係数推定法
○金川裕紀，太刀岡勇気，成田知宏（三菱電機）
少ない適応データでfMLLRをかけるための手法が基底fMLLR（少数の基底行列の線形結合で変換行列を表現し、その結合係数のみをML推定する）。この発表では、重み係数を更新学習するときに、学習時の寄与度も考慮して変換行列を推定する。また、基底行列数が限られることに対する悪影響を除くため、似ている基底行列をまとめて1つの行列とすることで実質的な基底行列を減らす。

(SLP-1) 識別的推定法に基づく音声の構造的表象を制約として用いたニューラルネットワーク音響モデルの話者適応
柏木陽佑，○齋藤大輔，峯松信明（東大）
再学習によるDNN音響モデルの話者適応。再学習をするときに、全音響イベント分布間の距離の関係が変わらないようにパラメータを動かす。分布間距離であるバタチャリヤ距離の計算において、各音素の分布をガウス分布近似しなくてもいいよう工夫しているようだ（式を追い切れなかった）。話者ごとに40～50発話の適応データを使った教師なし適応で評価。音響イベントとして、無音と子音を除いた（つまり母音と半母音のみの）モノフォンを使うのがよく、最大で0.9ポイントほど改善。

■音声合成・声質変換（15:45-17:45）

(SP-3) DNN音声合成における複数話者モデル化のための話者コードの利用
○北条伸克，井島勇祐（NTT），水野秀之（諏訪東京理科大）
複数話者の音声コーパスを使うことで音声合成品質を改善する。従来法としてi-vectorを入力とする方法が提案されているが、それほどうまくいっていない。最初の実験は複数話者データを使った話者クローズな音声合成実験で、i-vectorではなくて話者コード（話者数の次元を持って1-of-K表現されたベクトル）を追加する入力層を変えて実験を行っている。適応で他が少ない場合は、入力する層を2～4層にすると客観評価結果がちょっぴり改善。データが多い場合は、すべての中間層に話者コードを入れる方法が良い。次の実験では、新しい話者の適応方法では、話者コードに新しい次元をつけくわえて再学習する。この場合はできるだけ出力層に近い中間層に話者コードを入力した方が良い。適応は全体に余りうまくいっていない。

(SLP-2) 巨大特定話者データを用いたHMM・DNN・RNNに基づく音声合成システムの性能評価
Wang Xin（総合研究大学院大），○高木信二，山岸順一（国立情報学研究所）
音声合成を行う場合に大規模コーパスを使うことの効果について、100時間の特定話者データを使って調べた。性能的にはRNN>DNN>HMMの順。25h→100hにすることで、品質はやや改善。客観評価では、データ増加によってF0は改善するが、メルケプストラム歪みは頭打ちの傾向。

(SLP-3) Deep Learningを利用した任意話者の声質変換
○関井祐介，折原良平，清雄一，田原康之，大須賀昭彦（電通大）
DNNによる多対一声質変換で、オートエンコーダをかませることで計算量を削減する試み。入力話者・出力話者それぞれについてオートエンコーダによって次元を削減し（50次元・100次元）、圧縮した特徴量をDNNで変換する。スペクトル包絡をそのまま使った場合（512次元）、MFCCを使った場合（25次元）と比較して、MFCCより改善。スペクトル包絡よりは速い。

(SLP-4) 時系列構造を考慮した行列変量ガウス混合モデルによる声質変換
○内田秀継，楊奕，齋藤大輔，峯松信明（東大）
行列変量(MV)GMMによる声質変換に時間構造を入れるために、複数フレームを行列変量とする方法を検討。通常のMV-GMMでは話者数(2)×特徴量次元の行列をモデル化するが、これを時間方向にまとめることによって、（話者数×フレーム長）×特徴量の行列を作る。

■SLP企画（夕食後）

(SLP-5) 音声研究の最新動向：ICASSP2016の発表より

7月29日（金）

■教育・福祉（9:00-10:30）

(SLP-6) 世界諸英語発音分類を目的とした構造的特徴の不変性制御に関する検討
○塩澤文野，柏木陽佑，齋藤大輔，峯松信明（東大）
構造的特徴を使った「発音距離」を求める。さまざまな英語発音を含むSpeech Accent Archiveの読み上げから個人・方言非依存音素モデルを作り、MAP適応でモデルを個人化した上で分布間距離行列を作る。しかし普通の構造的特徴だと不変性が強すぎて方言に対しても普遍になるかもしれないので、話者性に対しては不変だがそれ以外には変化するように構造を工夫する。具体的には、帯行列による一次変換に対してのみ不変になるようにする（実装としては、いくつかの次元をまとめて独立な構造を作る）。こうやって作った構造（分布間距離行列）を入力として、人間がラベリングしたIPA発音記号間距離をSVRで推定する。全体を4つに分割することで精度がやや向上(0.73ぐらい)。

(SLP-7) Automatic Assessment and Error Detection of Shadowing Speech
時書菊（北京言語大），○楽俊偉，柏木陽佑，外山翔平（東大），山内豊（東京国際大），齋藤大輔，峯松信明（東大）
シャドウイング音声からの誤り検出に向けた研究。シャドウイングの誤りをいくつかに分類して実データを分析。単語の欠落とTOEICスコアに高い関連がある。そこで、発音すべき単語とショートポーズを並列に接続して並べた単語ネットワークでシャドウイング音声をアラインメントして、ポーズの部分を欠落と判定する。検出率7割ぐらい。また、単語欠落率にGOPなどいくつかの特徴量を追加してTOEICスコアの推定を行った。推定データセットのTOEICスコアが偏っている場合にも、比較的高い相関が得られる。

(SLP-8) 高齢者の体感状況理解のための韻律に着目した発話行動分析
○新村颯，桐山伸也（静岡大）
高齢者の体感温度に関する状況の理解が目的（必ずしも物理的な気温と比例しない）。その一環として高齢者の発話行動の取得と分析を行った。そのために、室内行動に関する知識ベース（インドアコモンセンス）を利用。4人の被験者が話をしながら過ごしている間に主観情報や発話音声、心拍数などのデータを取得。分析してみたが、体感温度の変化と発話の感情ラベル（発話長・F0に関する単純なルールによって付与）とはあまり関係が無い。しかし、体感温度が「快⇔不快」の間で変化するときには発話の感情とある程度関連がある。

■特徴量・VAD（10:45-11:45）

(SLP-9) 音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出
○藤田悠哉，磯健一（ヤフー）
Yahoo!の音声エンジンに使われている技術。DNNベースのVADを利用している。現状の問題点として、背景発話（テレビからの音声など）による誤検出が多い。特に車内音声認識の時に問題になる。ここで、背景発話は目的発話よりも遠くで鳴っていることが多いので、残響や雑音の影響を受けやすい。一方入力発話はマイクの近くで発話されることが多いので、音素の事後確率を計算すると特定の音素の確率が高くなりやすい。そこでフレームごとに音素（の各状態）のエントロピーを計算すると、音声区間で小さくなりやすく、背景発話のある非音声区間では高くなりやすい（雑音のない非音声区間では小さい）。そこで、まず通常のDNNによるVADを行い、音声区間と判別された区間でエントロピーを計算し、大きければ棄却する。フレーム単位の評価ではエラー率が4.54%から4.29%まで減少。文誤り率は3.95%から3.52%に減少。

(SLP-10) 音声認識におけるフレームシフト再考
○伊藤彰則（東北大）

（この間いったん大学に戻ったため聞けなかった）
■SPオーガナイズドセッション（招待講演）（13:15-15:15）

(SP-4) [招待講演] 多様なテキストの言語処理
○森信介（京大）
(SP-5) [招待講演] 音声中の検索語検出の研究動向とDNNの導入事例
○伊藤慶明，紺野良太，小原真人（岩手県立大），李時旭（産総研），田中和世（筑波大）

■SPオーガナイズドセッション（一般講演）（15:30-16:30）

(SLP-11) 音声クエリによる音声検索語検出のための認識結果およびDNNベースの特徴抽出と再照合手法の比較評価
○大石修司，松葉達哉，甲斐充彦（静岡大）
（ここで戻ってくる）

(SP-6) 音声中の検索語検出における音響距離構築方式の検討
○紺野良太（岩手県立大），李時旭（産総研），田中和世（筑波大），小嶋和徳，伊藤慶明（岩手県立大）
連続DPベースのSTDにおいて、サブワード間距離をいろいろ工夫。これまではGMM-HMMのGMMの間でのバタチャリヤ距離を使っていたが、最近のDNNでは分布間距離を求めることができないので、認識結果のconfusion matrixを使う方法(DNN-CM)、事後確率出力からバタチャリヤ距離を求める方法(DNN-BD)を比較。全体的にはDNN-CMが高性能。

■SLP企画（夕食後）

・学生の研究活動をもっとエンカレッジしよう
～各地・各学会・各組織の学生支援の枠組みについて～

aitoの日記： 2016年7月28日～29日 SP/SLP研究会＠天童温泉 0

2016年7月28日～29日 SP/SLP研究会＠天童温泉 More ログイン

スラド