パスワードを忘れた? アカウント作成
12078781 journal
日記

aitoの日記: 5月24日(日)音学シンポジウムまとめ

日記 by aito

5月24日(日)音学シンポジウムまとめ
■招待講演(09:00~09:45)
  (8) 音声音響符号化技術の最近の話題
     守谷 健弘
・音声音響圧縮符号化について
 ロスレス符号化(保存用)、片方向通信用符号化(放送用)、双方向通信用符号化(電話用)
 符号化は予測に基づく
  ロスレス符号化では残差波形をそのまま符号化(圧縮率1/2)、波形符号化では残差波形のインデックスを利用(同1/10)、ボコーダではパルス間隔のみを符号化(同1/30)
 音声は5msぐらいでないと定常と見なせないが、音楽は80msぐらい取っても大丈夫
・LSP
     IEEEマイルストーン認定(2014.5)
・ALS(音響ロスレス符号化)
        2002年から標準化提案開始
  超高精細度テレビ放送の高品質サービス規格に選定される(2014.6)
・EVS (Enhanced Voice Services)
  3GPPの規格(2014)(VoLTE後継)
  2010年から標準化開始
        800ページの規格書と参照ソフト(だれでもダウンロード可能)
  世界の有力12期間による共同提案
  低域は波形符号化(位相も含めて符号化)、高域はスペクトル形状だけを符号化
  LTEのパケット化のおかげで可変長符号化が使えるようになった
  音声符号化と音楽符号化の組み合わせ、低遅延(原理遅延32ms)
  さまざまな帯域・ビットレートのモードがあり、任意のモード間遷移が可能
  周波数領域の符号化
   スケールファクタごとのスペクトル概形と、線形予測によるスペクトル概形の表現を切り替えて使う

■招待講演(09:45~10:30)
  (9) 脳における音と画像のスパース表現
     寺島 裕貴
・つかみはConvolutional NNと特徴抽出の話。
 画像ではNNの中間に線分などの検出器が構成されるが、音では?
・脳の音処理と画像処理は似ているのか?似ていないのか?
 「統一的理解には、自然刺激のスパース符号化表現が有効」
・大脳新皮質の謎:多様性と普遍性
 領域によって機能が違うが、各部のネットワーク構造はほぼ同じ
・1次感覚野:V1とA1
・自然画像のスパース表現
 1つの神経細胞は、視野の中のごく一部の特定の傾きを持った光線分に反応(Gabor型受容野)
 Gabor型受容野や自然画像の表現に「最適」(スパースコーディング)
・自然音のスパース表現
 聴覚の場合は非局所的な刺激に反応する細胞がある
 皮質表面の「機能地図」:音の場合はtonotopy
  V1の場合はなめらか vs. A1の場合は乱雑
・A1とV1
 (動物実験)A1にむりやり視覚情報を入れて育てると、A1部分にV1と似た構造が形成される
 A1とV1の違いは入力の違い?
・画像は局所性が非常に高いが、音のスペクトルは離れた周波数に相関が現れる(倍音など)
・Topographic ICA (TICA)
 2層の構造、2層目では近傍での類似性を仮定、2層目の出力のスパース性を仮定
 トノトピーの解釈:離れた周波数成分を同時に測らなければならないので、近い位置に第1層で違う周波数成分に反応する細胞がある方が好都合
・複雑細胞
 複雑細胞で自然音を学習
・学習されたA1の構造が「ピッチ細胞」に似ている
 高次倍音だけを聴かせても反応する(Missing fundamentalに類似)
 自然音を聴かせたTICAでも類似の細胞が構成される
 V1複雑細胞と計算論的に相同か
・V1の「特定線分」とA1の「特定ピッチ」は計算論的に同じなのではないか
 計算機構は同じだが、入力の特性の違いによって変わる

■招待講演(10:30~11:15)
  (10)音楽を臨床に活かす:神経疾患の音楽療法
     佐藤 正之
非公開のためまとめなし

■ポスターセッション2 (11:15~15:30)
   11:15 - 11:45 ポスター概要発表
   11:45 - 15:30 ポスター発表(コアタイム制)
    12:30~14:00 奇数番の発表番号
    14:00~15:30 偶数番の発表番号

■招待講演 (15:30~16:15)
  (11)光を使って音を録る~光学的音響測定とその信号処理~
     矢田部 浩平,石川 憲治,池田 雄介,及川 靖広
DC2には見えない風格。
・光で音を測る原理
 空気の密度が変わると屈折率が変わるので、屈折率を測れば空気の密度変化(=振動)がわかる。
 誘電率(=屈折率の2乗)が位置と時間に依存するので、電場が屈折率によって変調される
 →光の変調を測れば音がわかる
・変化は微弱(定数項約1に対して10^-8~10^-12程度のオーダー)
・光を用いた音響測定の例
 シュリーレン法(19世紀)
  屈折率が変化した媒質を通った光をレンズで集めて、遮光物に当てる
  一般的な可聴音の可視化はなかなか難しい(変化が微弱なので)
 レーザードプラ振動計(1960年代)
  レーザ光とそれを周波数シフトした光の和を検出する→うなりを観測
  反射光が屈折率変化する媒質を通るようにすると、屈折率変化がうなりの変調として観測される
 光波マイクロホン
  媒質を通ったレーザを光検出器で検出するだけ
 デジタルホログラフィ
 光散乱
  空気中の粒子の散乱を観測
 粒子画像流速測定法
  粒子の動きをカメラで追跡
・信号処理による測定データの復元
 課題:SN比向上
  ノイズの影響、熱による密度の変動、光学系の振動
 物理モデルを用いた音響情報抽出
  音の物理モデルをHelmholtz方程式で表現
   (Δ+k^2)u(x,ω)=0
  Helmholtz方程式の解の表現:方程式を満たす関数系の線形結合
  スパース最適化(少ない数の関数系の重ね合わせで解を表現)
・光学的音響測定の音響工学的応用
 メリット
  測定機器を設置する必要がない
  音源によってマイクロホンを使い分けなくて良い
  風切り音を発生させない
  広範囲の音場を計測するのに向く
  空間的に連続な観測
  マイクが使えない状況への応用
  アレイマイクロフォン入力でも空間的折り返し歪みが発生しない

■招待講演(16:15~17:00)
  (12)音で海の生き物を観る
   赤松 友成
個人的理由で残念ながらキャンセル。

■招待講演(17:00~17:45)
  (13)音楽を科学的に扱う方法論
     平田 圭二
・既存の音楽理論について。情緒的、あるいはマニュアル的であり、仕組みや原理については語られない。
・音楽とほかのメディア(画像、音声、言語)の技術において重視される要因が違う(芸術、感性に偏る)
・音楽に「意味のある」意味はありうるか
 音楽の場合は解釈の対象がうまく分節されていない(気分、感情など)
・絶対音楽と標題音楽(19Cあたりの論争)
 音楽だけで完結しているものと、解釈を音の外に求めるもの
・楽曲の中の関係性、相互参照、半終止
・音楽の意味の分類 (L. Meyer)
 内在的(絶対的、具現的:音楽の中に参照を求める)vs. 外在的(参照的、指示的:音楽の外に以下同文)
 形式的(音楽のパターン) vs. 表現的(情動的経験)
・音楽における情動的経験
 期待の産物:驚き、不安、安定、緊張、弛緩
・楽曲内の参照で生じる表現的意味
 規範構造、緊張と弛緩
・GTTM:楽曲内の参照で生じる表現的意味の定式化
 生成文法とGTTMの比較:似てるようで違う
 ゲシュタルト:近接、類同、継続
 旋律とリズムのゲシュタルトを別々に分析
 音楽らしさを表現する選好規則

5月24日(日)
■ポスターセッション2(11:15~15:30)
  (45)楽譜と表情を関連付けた統計モデルに基づく楽器演奏の比較分析の検討
     奥村 健太,酒向 慎司,北村 正

  (46)フレンチホルンの音とマウスピースを唇に押し付ける力の関係について
   平野 剛,木下 博
マウスピースにひずみゲージをつけて、唇を押しつける力を計測。高い音ほど強い力で押しつけなければならないが、力の大きさは人によってばらつきがある。名人のマウスピース力の計測結果を公開。

  (47)基本周波数の時間変動を用いたエレキギターのビブラート奏法の判定
     宮垣 拓弘,西野 隆典,成瀬 央

  (48)特定周波数帯域におけるパワーの立ち上がりに着目したドラムスの自動採譜の検討
     栗脇 隆宏,西野 隆典,成瀬 央
スネアドラムに注目したドラムの発音時刻推定。いろいろやっているがヒューリスティック。

  (49)2次元LRパーサを用いた音楽演奏MIDI信号からの自動採譜
     高宗 典玄,亀岡 弘和,嵯峨山 茂樹

  (50)全極スペクトルモデルと擬似周期信号モデルのウェーブレット変換を用いた多重音スペクトログラムの調波時間因子分解
     中村 友彦,亀岡 弘和

  (51)日本のポピュラー音楽におけるジャンル推定モデルの構築-メロディを対象とした主観評価に基づく検討-
   伊藤 康佑,金 礪愛,菊池 英明
メロディからジャンルを推定するモデル。主観評価で正解を作っているが、素人に評価させて意味があるのかというつっこみが入っていた。

  (52)和音進行の期待における文脈効果の計算論的分析
     森本 智志,ジェラード B. レメイン,中島 祥好

  (53)MIDI音源を用いた旋律の言語依存性に関する分析
     三好 真人,柘植 覚,武田 一哉
日本とアメリカのポピュラー音楽の旋律特徴を分析比較。言語の違いがメロディに影響するという仮定の下に分析しているが、それには同意できない。

  (54)楽曲のサビを構成する動詞・形容詞の代表語への集約と気分語の関係の分析-歌詞全体とサビ部分の比較を通して
   山下 佑子,荻野 晃大

  (55)視聴覚統合NMFによるカエル合唱音声の分析
     糸山 克寿,坂東 宜昭,粟野 浩光,合原 一究,吉井 和佳
カエルの鳴き声を観測して光るデバイス「カエルホタル」で近くのカエルの音を観測し、カエルの声の録音と複数のデバイスの発光パターンとをNMFで分解する。個々のカエルがどう鳴いているかがわかる。

  (56)フレーム間の音程に注目した歌唱音声からのメロディ抽出法
     鈴木 基之,久保 勇人
ハミング検索のための相対F0抽出。音声を対数周波数で表現し、すべてのフレーム間での相互相関を計算する。それがピークになるような音程をうまく決定する。Tandem-Straightより高精度。

  (57)モノラル音楽音響信号を対象としたRPCAと音高推定に基づく歌声・伴奏分離
     池宮 由楽,糸山 克寿,吉井 和佳

  (58)DNN-HMMを用いた歌声の自動歌詞認識の検討
     川井 大陸,山本 一公,中川 聖一
歌詞認識にDNN-HMMを使っただけだが、認識率30%以上あってちょっと感心。

  (59)歌声合成ソフトウェアVOCALOIDTM4における表現力向上への取り組み
   橘 誠
以前東北大で話していただいたのと一部同じ。VOCALOID4の目玉機能について紹介。

  (60)声道形状と声帯音源特性を用いたグロウル系歌唱音声の印象付与の評価
     溝渕 翔平,西村 竜一,入野 俊夫,河原 英紀
音声をグロウル化するフィルタ。音声をTandem-Straightで分析し、音源形状を変化させると同時に、スペクトル概形をグロウルっぽくフィルタリングする。

  (61)スペクトル包絡情報を入力としたDeep Neural Networkに基づく歌声のための声質評価
     横森 文哉,大柴 まりや,森勢 将雅,小澤 賢司
UTAUライブラリの音声を分析して声質を評価。年齢、性別などの客観量、クリアネスなどの主観量を用意し、MFCCからそれらの量に変換するNNを推定する。

  (62)アカペラ演奏支援のための歌声に対する楽譜追跡手法の検討
     森 大毅,上田 新
アカペラ音声の楽譜アラインメント。F0とクロマベクトルを

  (63)楽曲構造に着目した統計的機械翻訳に基づく作詞支援
     岩下 知美,齋藤 大輔,峯松 信明,広瀬 啓吉

  (64)ロバスト複素音声分析を用いた音声認識
     比嘉 啓太,舟木 慶一

  (65)Unsupervised pronunciation disambiguation of language model training corpora
   Ryuki Tachibana,Nobuyasu Itoh,Gakuto Kurata,Masafumi Nishimura,Nicola Ueffing,Daniel Willett

(66)フォルマント構造維持を規範とした音声信号混合法
     大脇 渉,旭岡 舜介,高橋 弘太

  (67)母語話者の交替タイミング機能獲得時期の検討
     市川 熹,川端 良子,大橋 浩輝,仲 真紀子,菊池 英明,堀内 靖雄,黒岩 眞吾

  (68)スマートポスターボードにおける視線情報を用いた話者区間及び相槌の検出
     井上 昂治,若林 佑幸,吉本 廣雅,高梨 克也,河原 達也

  (69)Analysis of glottal source waves for emotional speech using ARX-LF model
   Yongwei Li,Yasuhiro Hamada,Masato Akagi

(70)感情音声変換を目的としたValence-Activation 2次元感情空間と関連する音響特徴量推定と基本周波数制御法の検討
     濱田 康弘,Elbarougy Reda,赤木 正人

  (71)統計的パラメトリック音声合成のための変調スペクトルに基づく音質改善法
     高道 慎之介,戸田 智基,ブラック アラン,中村 哲
高道さんが以前からやっていた変調スペクトルフィルタによるHMM合成音の自然性改善の紹介。

  (72)多様な対話音声合成のための話し言葉音声コーパスの構築と評価
     山田 修平,能勢 隆,伊藤 彰則
うちの研究室から。会話調と朗読調のどちらの音声も合成できるようなコーパスを集めた。

  (73)声真似音声を利用した低コストで付加価値の高い音声合成の検討
     本郷 康貴,能勢 隆,伊藤 彰則
  綾波レイの音声を合成するのに、そっくりさん音声がどう使えるか。大量コーパスとの組み合わせはあまりうまくいっていない。

  (74)混合ガウス分布を用いた自然音声への人工感の付与
     小林 航也,齋藤 大輔,峯松 信明,広瀬 啓吉
  人間の声をHMM合成っぽいもごもご声に変換。嬉しいのか?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

計算機科学者とは、壊れていないものを修理する人々のことである

読み込み中...