パスワードを忘れた? アカウント作成
12799263 journal
日記

aitoの日記: 5/19-20 International Symposium on Ultra-Realistic Acoustic Communication@蔵王

日記 by aito

5月19日

Keynotes
・Ercan Altinsoy, “The role of the spatial audio on the plausible multimodal scene generation: From wave field synthesis to audio induced vibration reproduction”
感覚器から得られる情報量は、目、耳、触覚でそれぞれ10^6, 10^4, 10^2 bit/sぐらいだが、脳が処理できる情報量は10~100bit/s。感覚を脳で処理するためには情報を選ばなければならない。それぞれの時間解像度は、25, 2, 5msぐらい。
3Dオーディオシステムに対する要求
ステレオ→サラウンド
バイノーラル聴取
波面合成
Implementation Diffculty
スイートスポットの問題
Audio Induced Vibration Production
 さまざまな音楽について、振動フィードバックの効果を調べる

・Satoshi Oode, “Measurement of spatial impressions and types of emotion evoked by sound”
8k放送のオーディオフォーマット
22.2chサラウンド ITU-T BS.2051, BS.2076
「感動」の計測と分析
 感動を Excitement, Heartwarmth, Chill の3つに大きく分類
 オーディオチャネル数とこれらの感動との関係を重回帰分析
超臨場感メーター
 チャンネル数と音響信号から感動の度合いを推定して表示する

・Yuto Saito and Akira Omoto, “Introduction of amplitude panning into physically assured sound field reproduction system”
波面合成、アンビソニックス、バイノーラルなど:物理的方法(理論的)
5.1chサラウンド、22.2サラウンドなど:心理的方法(技芸的)
これらのシステムを統合して1つのシステムで両方を実現する
指向性マイクロホンアレイとスピーカアレイの組み合わせ
 心理的方法:直接再生 マイクでとった音を対応するスピーカから流す
24chマイクと音響樽の組み合わせ
 物理的方法:BoSC
それぞれの方法が実際のITD,ILDとどう違うかシミュレーション
 低域ではBoSCの方がいいが、高域では直接法の方がいい
音源方向については、水平面ではBoSCと直接法は同じぐらい、正中面では直接法がやや良い
ハイブリッド法:低域ではBoSC、高域では直接法を使う
Variable Refrection Acoustic Wall System (VRAWS)

・Yukio Iwaya, Shoya Yarimizu, Makoto Otani, Takao Tsuchiya and
Junfeng Li, “Discrimination of sound fields different in spatial aliasing”
音場再生システムではスピーカの間隔が十分短くないので高域でエリアシングが起きる
Binaural Room Impulse Response (BRIR)の計算:頭の周りの仮想球に基づく
さまざまな条件による聴取実験により、4kHz以上の帯域における空間エリアシングは印象に大きな影響を与えないことがわかった

・Craig Jin, “Consideration of High-Fidelity Spatial Audio Systems: Loudspeaker Arrays and Headphones"
球形マイクロホンアレイについて。球を2重にすると性能が上がる。
周波数と指向性の関係
sparse recovery による音場解析:実質的な解像度を上げることができる

球面調和関数による分析のドメイン内で処理をする
スパース分解による分析 2次正則化による
 (辞書が必要)
Lp-norm解とベイジアン解の関係
Subspace denoising

・Filippo Fazi, “Loudspeaker Arrays for Sound Reproduction”
スピーカアレイによる特定位置での音の強調とキャンセル
コンパクトなスピーカアレイ
スピーカアレイに指向性を作るためのフィルタの計算
音響ホログラフィとの関係
応用:personalized audio 特定の人だけに音を届ける
 特定の方向だけにゲインがあって残りは0となるようにフィルタを設計すると、ゲインのある方向で低域が減衰する
 低域の音圧レベルと指向性のトレードオフをどう調整するか
応用:トランスオーラルオーディオ
 従来は2スピーカで実現するが、多くの空間的エリアシングが起きる
 多数のスピーカを使うと性能改善
 カリフォルニアの4Dシアターで使われている
 聴取者トラッキングを行うトランスオーラルシステム
応用:多層円形/半円形アレイ
 解析的なフィルタ設計が可能
 2つの半円形アレイを使う(double array configuration)
    半円形アレイによる音響ホログラフィ
応用:巨大球形アレイ
 40チャネル球形アレイ
応用:S3A Vision
 オブジェクトベースの音場再現

・Makoto Otani, Yuki Fujii, Hikaru Watanabe, Takao Tsuchiya and
Yukio Iwaya, “Physical and perceptual effects of spatial aliasing in sound field reproduction”
ホイヘンスの原理による波面合成
Fresnel-Kirchhoff拡散方程式
 カージオイド型の指向性で音を収録したときの再生原理
まじめにやると10000点以上でサンプリングしなければならない
 観測点が少ないと空間的エリアシングが起きる
様々な観測点数で音場再現して空間的エリアシングの影響を調べた
 バイノーラル伝達関数を調べたところ4kHzが再現できる観測点数まではなんとか。それ以下だと再現性が良くない

ナイトセッション
・Junfeng Li, Risheng Xia, Yoiti Suzuki and Yonghong Yan, “3D sound technologies for future interactive communications over the internet”
CASでの3Dオーディオ関係の研究紹介。

・Yoshifumi Kitamura, “Reactive interiors: designing multimodal aware spaces”
北村先生の持ちネタ、Transform Tableをはじめとした研究の紹介。

5月20日
・Ruediger Hoffmann, “Roots of articulatory speech synthesis in history”
最初にバルクハウゼンの業績について。バルクハウゼンの日本訪問。
ドレスデン工科大での音響・音声に関する歴史コレクション
 ベルリンのフランツ・メトロ(音声学者)の影響
 ハンブルクのジュリオ・パンコンチェリ=カルツィア(音声学)
歴史的な音声合成
 クリスティアン・ゴットリープ・クラッツェンシュタイン(1723-1795)
  音声合成器の試作(5母音)
  2006年にレプリカを作成。ラテン語の原書のドイツ語訳も出版
 ヴォルフガング・フォン・ケンペレン(1734-1804)
  ダイナミックなモデル(単語の合成が可能)
19世紀の音声合成応用
 ヨハン・ネポムック・メルツェル(1772-1838)
  ピアニスト、機械オーケストラ作成
  しゃべるオートマータ作成(「パパ」、「ママ」) 特許取得
 ドイツの人形メーカー、ゾンネベルクでしゃべる人形を量産
 ヒューゴ・ヘルベ
  しゃべる絵本(1878特許)
  ドイツ語・英語・フランス語・スペイン語で出版
 ヨハネス・ケッセル(1839-1907)
  聴覚学者 ろう者教育
  1899ミュンヘンでの会議 聴覚が残存する聴覚障害者への発音練習の提案
  音声合成器の利用(現在でいうCAPT)
パラダイムシフト
 ヘルムホルツによるパラメトリック音声合成
 素片接続音声合成器(テープを使う)1964
 千葉・梶山の音声生成モデル
 荒井先生の音声合成器

・Peter Birkholz, “Recent progress in articulatory speech synthesis”
1983 DECTalk → 1985 ダイフォン合成→1988 素片選択合成
 自然性は向上したが柔軟性は失われた
 調音合成は(うまくやれば)自然な音声と柔軟性を両立できる
VocalTractLab システム
 調音器官の運動に基づく音声合成器(音響管モデル)
  声道の形を比較的正確に模擬
声道の3Dモデル(Birkholz, 2013, PLoS ONE)
声道断面積関数の抽出
声帯振動
声帯の新しいモデル(bar-massモデルでbarが平行でない)
 声帯振動の変化による声質の変化を再現できる
シミュレーション(等価回路による)
 音響管の1セクションを表す等価回路を接続して声道全体のモデルを作る
 雑音源を表すために"Enhanced Area Function" を提案
 調音結合モデル MRIの観測に基づく
2次的な韻律特徴の操作
 声道長の変化
 鼻音性
 調音努力(?)の強弱
 母音・子音のcentralizationの変化
Electro-optical stomatography (EOS)
 Electropalatography (EPG)とOptopalatography(OPG)を組み合わせた計測→唇・舌の高精度計測
軟口蓋の運動計測
 鼻孔にマイクロフォンをつっこんで音響計測
応用:喉頭摘出者に対する代替音声
 話者の調音器官を詳細に計測し、それに基づいて音声合成

・Kazuhiro Kondo, “Recent advances in the estimation of speech
intelligibility using objective measures”
DRT(Diagnostic Rhyme Test)
 日本語DRT:音素環境、単語親密度などを考慮
 安定して推定可能、実験の自動化が容易
 だがやはり主観評価はコストが高い
音声認識を使った了解度試験
 DRTと同じ対象に対して2肢強制選択させる文法を使う
 雑音環境に対してマルチコンディション学習
 精度は高いが、学習や認識の実行が大変
回帰による客観評価
 いくつかの特徴量から回帰によって了解度を算出
  セグメンタルSNR、PESQ MOSなどを使う(推定にクリーン音声が必要)
 計算量は音声認識より低い
単語対の比較による推定
 単語テンプレートをサブバンドに分けて距離計算
クリーン音声を使わないDRT了解度推定
 クリーン音声を推定して、それに基づいて推定
 クリーン音声を使う方法よりは制度が低いが、そこそこの性能

・Bartosz Ziolko and Magdalena Igras, “Speech segmentation and quasi-linguistic information in speech processing”
最初に音声セグメンテーションの話題。
様々なセグメンテーション(音素、音節、話者、音声/非音声、など)
音素セグメンテーション
 入力音声をサブバンドに分け、サブバンドのパワーによってランキング
 心理聴覚ウェーブレット分析
 音素境界の正しさに対してメンバーシップ関数を設定
文セグメンテーション
 文境界推定の音響特徴・言語特徴
 構文的/リズム・イントネーション/生理的要因
 音素長分布
  文末の音素は長く、パワーも大きい→文末を示す特徴として使える
アクセントにはパワーとF0が有効だが音素長は関係ない
つぎにさまざまなポーズによる音声認識
 respiration(息継ぎ), intentional(意図的), unintentional(言いよどみ)
句読点とポーズの関係
  読み上げでは句読点と関係ないポーズはほとんどないが、自由発話では多い
 filled-pause
自由発話におけるDisfluencyの種類と数:言い直しが多い
音声を聞くときに聞きづらくなる要因は何か(アンケート):filled-pauseがもっとも多い
感情音声について
 ポーランド語の感情音声データベース
 緊急通報に特化した感情モデルと音響特徴
 normal, sad, angryの3感情とF0
 人間と機械による感情認識結果:あまり良くないが、人間による認識結果も良くない
  音声だけによる感情認識は難しい
皮肉のイントネーションの音響特徴
 モダリティ:音声、言語、ボディランゲージ、過去からのコンテキスト
 音素長、パワーの影響は言語によらないが、F0の影響は言語依存

・Tatsuya Kitamura, “Effects of emotions on configuration of the speech articulators”
感情と音声生成。感情音声生成の「副作用仮説」
「感情」の階層的分類。(Affection→(emotion→(primitive basic) feeling→(social intellectual))
副作用仮説:感情による音声の変化は、感情による副作用によって調音運動(など)が影響されることによって起きる。感情によって調音ターゲット自体が変わるわけではない
これを実証するため、しゃべった場合/しゃべらなかった場合の調音器官の配置を調べる
MRIを利用 平常、怒り(hot)、喜び、悲しみの発話(プロ俳優による)
コンテキスト中の「えー」の発話に感情を乗せる
「えー」の発話をする時間と、発話をしないで表情だけ作る時間で調音器官の配置を調べると、よく似ている→感情によって(表情に伴い?)調音器官の筋肉が異なるパターンで緊張し、その影響で音声が変わる
感情に応じた器官のようすは話者(異なる性別)によって異なる

・Motoyuki Suzuki, “Lyrics recognition from singing voice dealing with insertion error”
Query-by-Singing MIR。歌詞の認識においては、音素長が通常音声と異なる(長い)ためにミスマッチが起きる。そのため通常のHMMを使うと単語挿入誤りが多発する。
対処法として、言語モデルに強力な制約を入れる方法(データベースにある歌詞しか認識しない)と、モーラ境界を音符境界にあわせる方法があり得る。
言語モデルを使う方法。FSAによって歌詞DBにある単語連鎖だけを認識する。
構文的に意味がある部分をまとめて扱うために、品詞に基づくルールを導入。また、小節、モチーフ、休符などを考慮する。
音符とモーラを対応させるため、音符境界に特別なフレームを挿入し、HMMの境界に特別な境界状態を挿入する。境界状態からは音素境界フレームが確率1で生成されるようにする。

・Seokjin Lee, “Estimation of number of bases for nonnegative matrix factorization in automatic music transcription applications”
自動採譜。入力信号をNMFで分解して基底とアクティべーしょんに分ける。NMFの基底数をベイズ推定できる(variational NMF)が、計算量が多い。音符の推定に使っていることを利用したい。
そのため、分解前の行列Vに対してV^T Vのランクを推定する(ランクが基底数になる)。提案法では、最初の音符の分析結果から雑音行列の大きさを求め、それを使って推定精度を上げる。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

読み込み中...