aitoの日記: 音響学会2日目午前 音声Aスペシャルセッション&音声B
音声Aスペシャルセッション 音声研究におけるネット上の情報基盤の活用
最初に速水先生が趣旨説明。「集合知」「ソーシャル」あたりがキーワード。
○Web時代の音声言語処理(中村哲 (NAIST))
NICTでやってきた音声言語処理をまとめて紹介。全体としては、すでに存在するデータの利用というより、実サービスによってデータを収集しながらシステムを改良するという話のようだった。
【背景】
・インターネット上のデータ:膨大、非構造、多言語、マルチモーダル
・ネットワーク上の集合知 Wikipedia、各種SNSなど
・ネット上の様々な情報(音声、画像、映像、物体など)を結びつけるために言語タグが重要。E-commerceは物体に言語タグをつけて利益に結びつける
・ネット上の情報を探すためのインタフェース。ほしい情報がたくさんあるほど、不便なインタフェースでも我慢できる
・ネット上の知識によってコミュニケーションを支援する
【Web時代の音声・言語処理技術】
・コーパスと技術の進歩/大規模データによる機械学習/実データによる教師なし学習
・コーパスに基づく言語処理の成長モデル:収集→修正→開発→サービス公開→収集
・Web上での能動的なデータ収集:メカニカルターク、Yahoo知恵袋など
【NICTのシステム】
・Webの大規模データを使う
パターンを使って、明示的に書かれた回答を抽出する
パターンの多義性への対処が技術的鍵
仮説の自動生成
自動発見された推論規則で仮説を自動生成
音声QA「一休」
2007年のクロールデータ(6億ページ)から知識収集
・大規模データとボランティアの共働
機械翻訳の進化:ルールベースからコーパスベースへ
効率的対訳コーパス獲得
汎用システムから多分野・専門システムへ
文脈を考慮する翻訳
みんなの翻訳
ボランティア翻訳者に翻訳支援ソフトを提供して、対訳コーパスを獲得(世界初の枠組み)
昨年4月から対訳文が収集できている
収集→再学習のループによって翻訳精度が向上
・使えば使うほど賢くなるネットワークシステム
ATRの翻訳電話プロジェクト(1986~)→NICT
2000年頃にルールベースからコーパスベースへのシフト
多言語コーパス 1言語200~300時間
2009年 国内実証実験:全国で実施(補正予算)
利用ログによる改良スパイラル
ネットワーク音声翻訳 VoiceTra (iPhoneアプリ)
60万ダウンロード、600万アクセス
実発話による性能向上 WER低下10ポイント程度
音声翻訳のモジュール接続の標準化
さまざまな組織が開発したシステムを接続できるようにする
A-STAR→U-STARへ(現在24言語)、ITU-Tでの標準化
・高度言語情報融合フォーラムALAGIN
企業81社、大学等158名
コーパス・ソフトウェア配布、セミナー開催等
【今後について】
・技術的課題:同時通訳など
・実用化:各種翻訳サービス
・コミュニケーション支援へ
○Webで生きる/活きる音声認識(緒方淳(産総研))
主にPodcastleを取り上げながら、Webを利用した音声研究について概観。
【Web上の音声アプリケーション・サービス】
・音声情報検索
Podcastle(産総研) 2011年10月から動画コンテンツ検索に対応
VOISER(産総研) サブワードベースのマッチング、語彙・言語非依存
Podscope, PodZinger(Everyzing)→非公開または商用サービス化
研究は精力的に行われている 実際に運用されているWebサービスは案外少ない
・音声入力
w3voice(和歌山大)
・携帯デバイスアプリケーション
【Webを活用した音声認識手法】
・オフラインコンテンツの音声認識
言語モデリングにWebを利用
検索エンジンを利用 ドメイン依存、会話スタイル、動的な適応
Webの大規模さ vs. CSJ
・オンラインコンテンツの音声認識
多種多様な音声データ、幅広いトピック
Podcastleにおける言語モデリング
Webニューステキスト(Yahooニュース)で日々学習
Yahooニュースは定型なのでフィルタリングがいらない
語彙サイズ25万、CSJと混合
【集合知を活用する音声認識、クラウドソーシング】
・Webアプリケーションから、Webを通じた集合知によって音声認識を改善
・携帯デバイスアプリケーション
ボイスサーチ、音声翻訳など:音声データ収集にも使える
Google Search by Voice
GOOG-411データ+1000時間データ+5000時間データ
・Podcastleにおける集合知利用
音声認識へのアノテーション、積極的な参加
音声B 歌声
・ノート指令と表現指令によって駆動される歌声F0生成過程の統計モデル(NTT)
大石さん。この前MUSで聞いたのと同じ話かな。歌声音声に含まれるダイナミクスの中で、発声器官の物理的誠意役に起因する成分に加えて、ビブラートなどの意図的な変動成分を抽出・モデル化する。モデル的には、音符に対応するノート指令と、意図的成分に対応する表現指令、さらに微細変動の3つを仮定する。
モデル化のやり方として、ノート指令と表現指令からF0が生成される過程を確率モデルで表現し、F0軌跡が与えられた場合にEMアルゴリズムで各指令を推定する。確率モデルとしては、音符ごとに状態のクラスタがあり、クラスタ内では表現指令が変化するようなHMMを使う。
・グロウル、スクリーム音声の音響的特徴(東北大)
加藤君(@kato_sutoren)の発表。グロウルとスクリーム音声の音源特性の調査(以前のMUSと同じ内容)に加えて、フォルマント周波数の分析を行った。グロウルでは通常温よりも口を閉じ気味で舌を奥にして発声し、一方スクリームでは口を開け気味で舌を奥にして発声しているらしい。河原先生から、ダウンサンプリング時の窓関数についてのコメントがあった。
・多様なポピュラーソングによる熱唱度評価システムの性能評価(東北大)
大道君(@ryunosuke_d)。ゆうべ1時頃まで泥縄的に発表内容を調整していた。発表途中で役員会に出席するため会場を抜けてしまったのだが、熱唱度評価のデモで失敗したらしい。睡眠不足だったな。
音響学会2日目午前 音声Aスペシャルセッション&音声B More ログイン