aitoの日記: 3月15日 音響学シンポジウム“いい音を作る まとめ
日本音響学会 2015年春季研究発表会特別企画
「音響学シンポジウム“いい音を作る”」
12:30-12:40 開会挨拶
12:40-13:15 音声認識にとっての悪い音声の克服史
中川聖一(豊橋技術科学大学)
・音声に含まれる情報量(1発話当たり)概算
位置情報:5bit、 感情情報:3bit、 話者情報:7bit
言語情報:言語モデルなし 90bit、言語モデルあり 42bit
(言語モデルによる情報量ゲイン 48bit)
音韻情報量 無意味語126bit、知覚の音韻情報量 122bit(認識率90%)、音響モデル 119bit(認識率80%)
→その他の情報に比べて言語情報、音韻情報の情報量が圧倒的に多い
・音声認識にとって悪い音声とその克服
時間の非線形伸縮→DTW
調音結合→コンテキスト依存音響モデル、動的特徴
長時間特徴時系列(セグメント特徴)+DNN
話者・発話スタイルによる変動→適応技術(正規化は不完全)
雑音・残響によるパターン変動→
遠隔発話→
・音声認識技術の進歩
DPマッチング(DTW) 1970年代
連続音声認識アルゴリズム 1980年代
GMM-HMM 1980後半~2000年代
DNN-HMM 2010年代
・モデルから外れる話者
Sheep speaker (Golden voice) vs. Goat speaker
・音響モデルと言語モデルの性能
音響モデルの性能が支配的
・情報処理と情報伝送速度
情報処理 y=f(x) によって情報伝送速度が増大することはない
(→雑音除去によって伝わる情報は増えない)
・音声認識率の各種予測
・ニューラルネットブームの再来
コンピュータの速度、メモリ容量 1000倍
学習データ量 100倍
学習アルゴリズム BP→RBM+BP
13:15-13:50 音声合成で良い音を作る!
山岸順一(国立情報学研究所)
・ブリザードチャレンジ
音声合成のコンペティション
共通コーパスを利用した音声合成システムの評価イベント
毎年開催
・評価基準
主観評価(300~500人、1時間/人) 統計的有意差検定
評価基準:自然性(MOS)、目標話者への類似性(MOS)、明瞭性・了解度(WER)
・これまでの結果
すべての条件で、自然音声と合成音声には差がある
自然音声と同等な自然性は達成されていない
2008年以降Blizzard Challangeでは、統計的音声合成システムは自然音性と同等の明瞭性を達成
・上記3基準以外にもさまざまな基準が提案されている
・音声合成の客観評価
合成音声の良さは多様で個人にも依存する
一部の指標については客観評価も可能になりつつある
・合成音声の明瞭性(文章了解度)の客観評価
C. Valentini-Botinhao et al. 2011
スペクトル加工・雑音重畳音声を用意し、書取テストと予測スコア(Dau, Glimpse proportionなど)を比較→相関係数0.7~0.8以上
・目標話者への類似度の客観評価
話者照合との関連
i-vector, PLDAなどでチャネルの影響を除去
ベストな照合システムは人間の能力を上回る
山岸先生の研究では人間のFARは約9%、FRRは約3%(システムはどっちも1.4%)
・自然性の評価
劣化自然音声用などの従来指標は全く役立たない
過去のBlizzard Challangeの結果をもとに機械学習をする試みも
・さらに良い合成音声の実現に向けて
Familiarity, Vocal attractivenessも必要
なじみのある声は騒音下でも聞きやすい
平均声に近い人ほど声が魅力的に聞こえる
馴染みのある声 vs. プロのラジオナレーター
視覚障害者を対象に記憶ゲーム、迷宮脱出ゲーム
自分の声、先生の声、ラジオのナレーターから作った合成音声
結果:自分>先生>ナレーター
対話音声合成に向けて
読み上げ音声合成とは異なる指標が必要
フィラーの重要性など
Filled pause と単なる pause ではその後の単語に対する反応が異なる(合成音声では再現されない) (J. E. Fox Treeによる実験)
相反する基準
視覚障害者は400 word/minで聞いている
明瞭性よりも早い話速を好む
13:50-14:05 休憩1(15分)
14:05-14:40 聴覚と身体の潜在的結合 音楽とスポーツの潜在脳機能からのアプローチ
柏野牧夫(NTTコミュニケーション科学基礎研究所)
・潜在過程と顕在過程
知覚・思考・言語などの顕在過程の外側に、感覚・運動・情動などの潜在過程がある
顕在過程:自覚的、複雑、遅い
潜在過程:無自覚、単純、速い
潜在過程が主、顕在過程が従
・音楽とスポーツにおける潜在過程の解読と制御
「いい音」で潜在過程を効果的に調節
・音楽の快と報酬系
良い音楽を聞いたときに報酬系が活性化するらしい
音楽のpeak preasure→線条体でのドーパミン放出
・音楽の快にもいろいろある
ゾクゾク感、高揚感(peak preasure):交感神経系、ドーパミン
新鮮さ、おもしろさ(surprise):交感神経系、ノルアドレナリン?
安らぎ(relaxation)、馴染み(familiarity):副交感神経系、オキシトシン?
・サプライズを眼から読む
瞳孔径(交感神経で開き、副交感神経で縮む)
LC-NA(青斑核ーノルアドレナリン系)と相関
音楽聴取時の瞳孔系変化
聴覚oddball問題における瞳孔径の変化
珍しい音に対して反応するが、周波数の違う音に対してはあまり反応しない
統計的なサプライズの効果は顕著でない
Microsaccade
2次遅れ系としてモデル化
珍しい音に対して減数係数は減少し、固有核振動数が上がる
音楽の印象を眼から読む
瞳孔径、マイクロサッケード、瞬目などから機械学習によって印象(サプライズ)を予測
・音楽と情動制御
オキシトシン→NTTは世界再構成度で唾液中のオキシトシン濃度計測に成功
ショパンの音楽を聴取する前後で唾液中のホルモン濃度と心拍変動を比較
→ローテンポの音楽を聞いた後ではオキシトシン濃度が高まる
音楽(ドラム)のテンポへの心拍の引き込み
・スポーツの解読と制御
CRESTのスポーツ上達支援システム
来ている服にデバイスを仕込んで様々な情報を取得
・ピッチングのこつをつかむ
映像情報では力を入れるタイミングや強さはわからない
原因の結果の取り違えを招きやすい
時間解像度が低い
・筋電位を可聴化→高い時間解像度、理解しやすい
・速い球を投げるには
新説:力を入れるタイミングとインピーダンス調節
・パターン学習か運動理論(ダイナミクスの内部モデル)か?
14:40-15:15 マイクロホンアレイ信号処理の非同期分散録音への展開 小野順貴(国立情報学研究所
・実世界の音環境
実環境は混合音に満ちている
・個々の音源信号を取得したい
認識、編集、加工のため
音源のできるだけ近くにマイクを置く
指向性マイクロホン
マイクロホンアレイ
・指向性制御の基本原理
同期加算(等伝搬長加算)
これを物理的にやっているのがパラボラマイクロホン、ガンマイクロホン
・マイクロホンアレイ技術
同期加算によるビームフォーミング
・死角型ビームフォーマ
少ない素子数で鋭い特性
・ブラインド音源分離
優決定(マイク数≧音源数)では標準アルゴリズム(ICA, 独立ベクトル分析等)
・マイクロホンの素子数、サイズ
アレイサイズが多いほど鋭い指向性
マイク数が多いほど多数の死角形成
どうやって少ないマイク数で性能を上げるか?
・スパース性を利用した時間周波数マスキング
・マイクロホンアレイのバーチャル多素子化
観測信号の非線形補間によって仮想的に素子を増やす
・マイクロホンアレイによる圧縮センシング
多数のMEMSマイク+次元削減により効率的な信号処理
・非同期分散マイクロホンアレイ
従来のマイクロホンアレイは同期が必要・多チャネル同期AD変換
マイク自体はたくさんある→非同期録音
解かなければならない課題
チャンネルが非同期、マイクロフォン位置が不明
・関連研究1:Shot Spotter
銃声の検出(定位)
・関連研究2:NoiseMap
町中の雑音レベルを可視化
・サンプリング周波数ミスマッチのブラインド補償
サンプリング周波数が微妙に違うと、音源が移動しているようにみえる
→音源が動かないことを仮定してサンプリング周波数を補償
・伝達関数ゲインNMF
複数チャネルでのある周波数の時間ーチャネル行列を分解
→伝達関数ゲインを基底として信号を分解
・応用:交通量モニタリング
・関連情報:SiSEC
15:15-15:30 休憩2(15分)
15:30-16:05 「いい音」から「いい音楽」へ
山田真司(金沢工業大学)
・音楽音響学とその研究対象、MA研の紹介
物理音響、音楽心理、音楽情報処理など
・音色の研究
「音色」の定義(JIS-Z8109) 音色ゴミ箱説
音の3要素:高さ(1次元)、大きさ(1次元)、音色(何次元?)
SD法による音色の次元の分析(東北大、大阪大+九州芸工大)
音色は3次元(美的因子、迫力因子、明暗因子)
それぞれの因子に関連する物理量
・3因子を物理量から推定できる
→3つのツマミで音色を合成するシンセサイザが作れる?
→実際には作れない(ほかのたくさんの物理パラメータも関係するため。たとえば音の立ち上がりなど)
・いい音色とは?
経験や記憶関連する価値の評価(感動など)はSD法では明らかにできない
・いい音楽とは?
音楽の3要素:リズム、メロディ、ハーモニー
J. Blacking:「人間が組織化した音響」この定義では音声も音楽に含まれる
・音楽と音声どちらが先?
C. Sachsの説:音声→歌→音楽
・お兄ちゃんCDのSD法による分析
快さと興奮度の2軸
「萌え」は発話者による?→基本周波数とスペクトル重心(幼児に近い声)
・音楽が情緒と結びついているなら、印象がSD法で計れる
ポピュラー音楽169曲を評定
快さ、迫力、明るさの3軸:音色とほぼ同じ
・音楽の感情検索システム、音楽の印象検索
定額制の聞き放題サービスへの応用
・印象の自動推定
音響情報による推定:歌詞、歌声、楽器情報などが抽出できない
メタデータによる特徴
・音楽配信サービス会社からの19099曲のメタデータ(統制済み)
コレスポンデンス分析による空間→印象空間への写像推定
音響特徴量との比較
結果:快さ、明るさは メタデータ>音響
迫力は 音響>メタデータ
16:05-16:40 音楽の生成と理解 + Rencon の概要紹介
片寄晴弘(関西学院大学)
・音楽情報科学のマイルストーン研究
1950年代から計算機による音楽生成・認識研究
MIDI(1982)
1984~自動伴奏システム
1985 Wabot2
1989 指揮インタフェースRadio-Baton (Max Mathews)
1991 自動作曲EMI
1993 SIGMUS
1993~ サイバー尺八
現在:インタラクション系、学習・生成系
1998 セッションシステム
・CrestMuseプロジェクト
・Rencon: Performance Rendering Contest (2002-)
評価対象:生成演奏の音楽性、システムの自律性、適応力
評価者:専門家 vs. 一般
対象曲、レギュレーション
16:40-16:55 休憩3(15分)
16:55-17:30 いい音・いい響きの工学的な再生と芸術的な創造
尾本 章(九州大学)
・建築音響における「いい音」
良いホール・スタジオの音
十分な音圧、響き、明瞭性、包まれ感
聴いてみることが重要:可聴化
・建築音響における可聴化
良い音を聞く、音響設計の確認、音響障害の発見、音場の比較
音源信号だけでなく音場を再生する必要がある
・音場再生システムの潜在能力+芸術的操作
物理的性能の限界を補完
本物との乖離を許しつつ総合的な性能を上げられないか:創臨場感
観賞用メディアになれないか
新しい芸術表現のためのツールとなり得ないか
・音場再生のあれこれ
バイノーラル、トランスオーラル、アンビソニックス、WFS、BoSC (Academic)
ステレオ、5.1ch, 22.2ch (Artistic)
・ステレオ再生からサラウンド・オブジェクト指向まで
きちんとチューニングされたステレオ再生のすさまじさ
作者の自由に操作できる
Dolby ATMOS: Object指向の音場再生
・響きをとらえて別な場所と共有するプロジェクト(CREST)
80チャンネルマイクアレイ:フラーレンマイク
96チャンネルスピーカアレイ(音響樽)、48チャンネル(音積木)
逆フィルタの生成などにヒューリスティックが必要
・Variable Reflection Acoustic Wall System: VRAWS
反射率可変の音響壁面システム
音場自体の特徴を変化させることで「いい音」を追求
音場再現への応用
モニタースピーカを用いたHi-Fi化→実験的コンサートへの適用
・性能評価
音響物理指標
コンテンツの適性
定位、周波数特性、など
・方向性を測定するデバイス
マイクアレイ+指向性制御
より簡易的で信号処理を介しないシステム?
ショットガンマイクを使ったシステム?
方向ー時間情報徹底収集センサー
・はりねずみマイク
響きを方向別に収録して再生する試み:エコールーム再現
・AcademicとArtisticな表現の融合
工学的に正しい手法をベースに、新しい表現手法を提案できる可能性
コンテンツ選定の難しさ
移動音、音楽、鑑賞性、自然音
音場再生においては何がいい音か
Hifi、ハイレゾ
適度な移動を伴いつつ定位が明確:工学的な正確さ
17:30-18:05 製品のサウンドデザインによる機能的な環境の創造
戸井武司(中央大学)
・低騒音化による音環境の変化
大きな騒音のモグラたたき→音のバランスが考慮されない
空間全体の暗騒音低下→小さい騒音の顕在化→サウンドデザイン
サウンド・ブランディング、サウンド・オプション
・掃除機騒音の把握とデザイン
モーター回転に起因するピークをノッチフィルタで除去
・自動車車質感に合致したサウンドデザイン
エアコン音などの作り込み
・サウンドによる感覚形成とイメージ連想
エアコン音で体感温度が変化する(低周波数→暖かい、高周波数→冷たい)
シャワーの音で「水を浴びてる感」が変化する
カメラシャッター音予測と音質改善
実際のシャッター音に電子音を加えて上質感を演出
材質の違いを反映したサウンドデザイン
色彩に対応した音づくり
・EV疑似走行音
音の大きさと「音のみ」「音+映像」「音+映像+動き」の関係
運転者に近い環境(音+映像+動き)だと音が大きくても不快にならない
・サウンドパーティションによる音分離
車の前部と後部座席
家のエリアごとの音づくり
・車内で覚醒をうながす音づくり
・快音設計の手順
感性を考慮した定量的な音質評価
音響シミュレーションを活用した目標音質の設定
目標音質を実現する設計手法の開発
・サウンドブランディングと音商標
音の創作、検索などが重要
・スマートサウンドデザインソサエティ
・自動車加速音と楽器音の比較(主観評価)
ある種のエンジン音はバイオリン音と似た特徴
18:05-18:10 閉会挨拶
3月15日 音響学シンポジウム“いい音を作る まとめ More ログイン