パスワードを忘れた? アカウント作成
2086761 journal
日記

aitoの日記: 音響学会2日目午前 音声Aスペシャルセッション&音声B

日記 by aito

音声Aスペシャルセッション 音声研究におけるネット上の情報基盤の活用

最初に速水先生が趣旨説明。「集合知」「ソーシャル」あたりがキーワード。

○Web時代の音声言語処理(中村哲 (NAIST))
NICTでやってきた音声言語処理をまとめて紹介。全体としては、すでに存在するデータの利用というより、実サービスによってデータを収集しながらシステムを改良するという話のようだった。

【背景】
・インターネット上のデータ:膨大、非構造、多言語、マルチモーダル
・ネットワーク上の集合知 Wikipedia、各種SNSなど
・ネット上の様々な情報(音声、画像、映像、物体など)を結びつけるために言語タグが重要。E-commerceは物体に言語タグをつけて利益に結びつける
・ネット上の情報を探すためのインタフェース。ほしい情報がたくさんあるほど、不便なインタフェースでも我慢できる
・ネット上の知識によってコミュニケーションを支援する

【Web時代の音声・言語処理技術】
・コーパスと技術の進歩/大規模データによる機械学習/実データによる教師なし学習
・コーパスに基づく言語処理の成長モデル:収集→修正→開発→サービス公開→収集
・Web上での能動的なデータ収集:メカニカルターク、Yahoo知恵袋など

【NICTのシステム】
・Webの大規模データを使う
        パターンを使って、明示的に書かれた回答を抽出する
                パターンの多義性への対処が技術的鍵
        仮説の自動生成
                自動発見された推論規則で仮説を自動生成
        音声QA「一休」
                2007年のクロールデータ(6億ページ)から知識収集
・大規模データとボランティアの共働
        機械翻訳の進化:ルールベースからコーパスベースへ
                効率的対訳コーパス獲得
                汎用システムから多分野・専門システムへ
                文脈を考慮する翻訳
        みんなの翻訳
                ボランティア翻訳者に翻訳支援ソフトを提供して、対訳コーパスを獲得(世界初の枠組み)
                昨年4月から対訳文が収集できている
                収集→再学習のループによって翻訳精度が向上
・使えば使うほど賢くなるネットワークシステム
        ATRの翻訳電話プロジェクト(1986~)→NICT
                2000年頃にルールベースからコーパスベースへのシフト
                多言語コーパス 1言語200~300時間
                2009年 国内実証実験:全国で実施(補正予算)
                利用ログによる改良スパイラル
        ネットワーク音声翻訳 VoiceTra (iPhoneアプリ)
                60万ダウンロード、600万アクセス
                実発話による性能向上 WER低下10ポイント程度
        音声翻訳のモジュール接続の標準化
                さまざまな組織が開発したシステムを接続できるようにする
                A-STAR→U-STARへ(現在24言語)、ITU-Tでの標準化
・高度言語情報融合フォーラムALAGIN
        企業81社、大学等158名
        コーパス・ソフトウェア配布、セミナー開催等

【今後について】
・技術的課題:同時通訳など
・実用化:各種翻訳サービス
・コミュニケーション支援へ

○Webで生きる/活きる音声認識(緒方淳(産総研))
主にPodcastleを取り上げながら、Webを利用した音声研究について概観。

【Web上の音声アプリケーション・サービス】
・音声情報検索
        Podcastle(産総研) 2011年10月から動画コンテンツ検索に対応
        VOISER(産総研) サブワードベースのマッチング、語彙・言語非依存
        Podscope, PodZinger(Everyzing)→非公開または商用サービス化
        研究は精力的に行われている 実際に運用されているWebサービスは案外少ない
・音声入力
        w3voice(和歌山大)
・携帯デバイスアプリケーション

【Webを活用した音声認識手法】
・オフラインコンテンツの音声認識
        言語モデリングにWebを利用
                検索エンジンを利用 ドメイン依存、会話スタイル、動的な適応
                Webの大規模さ vs. CSJ

・オンラインコンテンツの音声認識
        多種多様な音声データ、幅広いトピック
        Podcastleにおける言語モデリング
                Webニューステキスト(Yahooニュース)で日々学習
                        Yahooニュースは定型なのでフィルタリングがいらない
                語彙サイズ25万、CSJと混合

【集合知を活用する音声認識、クラウドソーシング】
・Webアプリケーションから、Webを通じた集合知によって音声認識を改善
・携帯デバイスアプリケーション
        ボイスサーチ、音声翻訳など:音声データ収集にも使える
        Google Search by Voice
                GOOG-411データ+1000時間データ+5000時間データ
・Podcastleにおける集合知利用
        音声認識へのアノテーション、積極的な参加

音声B 歌声
・ノート指令と表現指令によって駆動される歌声F0生成過程の統計モデル(NTT)
大石さん。この前MUSで聞いたのと同じ話かな。歌声音声に含まれるダイナミクスの中で、発声器官の物理的誠意役に起因する成分に加えて、ビブラートなどの意図的な変動成分を抽出・モデル化する。モデル的には、音符に対応するノート指令と、意図的成分に対応する表現指令、さらに微細変動の3つを仮定する。

モデル化のやり方として、ノート指令と表現指令からF0が生成される過程を確率モデルで表現し、F0軌跡が与えられた場合にEMアルゴリズムで各指令を推定する。確率モデルとしては、音符ごとに状態のクラスタがあり、クラスタ内では表現指令が変化するようなHMMを使う。

・グロウル、スクリーム音声の音響的特徴(東北大)
加藤君(@kato_sutoren)の発表。グロウルとスクリーム音声の音源特性の調査(以前のMUSと同じ内容)に加えて、フォルマント周波数の分析を行った。グロウルでは通常温よりも口を閉じ気味で舌を奥にして発声し、一方スクリームでは口を開け気味で舌を奥にして発声しているらしい。河原先生から、ダウンサンプリング時の窓関数についてのコメントがあった。

・多様なポピュラーソングによる熱唱度評価システムの性能評価(東北大)
大道君(@ryunosuke_d)。ゆうべ1時頃まで泥縄的に発表内容を調整していた。発表途中で役員会に出席するため会場を抜けてしまったのだが、熱唱度評価のデモで失敗したらしい。睡眠不足だったな。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...