パスワードを忘れた? アカウント作成
13390454 journal
日記

aitoの日記: 8月25日 SIGMUS夏シンポ2日目まとめ

日記 by aito

8月25日(金)
■演奏支援 [9:00-10:30]
(7) グラウンデッド・セオリー・アプローチ的方法によるピアノ演奏習得におけるチャンク形成要因の予備分析
   石垣 愛美,竹川 佳成,平田 圭二,冨永 敦子
楽譜のまとまり(チャンク)が学習者の認知としてどのように形成されるのかを、Grounded Theory Approach (GTA)という理論に沿って分析する。ピアノ曲を題材に、直接演奏する場合と、楽譜と音楽を視聴するだけの場合でチャンクの獲得過程を比較。これを実験して分析するの大変だったろうなあ。分析を通して、チャンクを「譜面チャンク」「演奏チャンク」「音楽知識チャンク」の3つの大分類に分類。音楽を何回か演奏または視聴することで、どの分類のチャンクの比率がどの程度あるのかを分析した。経験者と初心者で傾向が違うが、演奏を行わないで楽譜を視聴するだけだと演奏に関するチャンクが形成されないという傾向があった。

(8) 多視点演奏映像を活用したピアノ演奏指使い分析ツールの提案
   長谷川 麻美,竹川 佳成,平田 圭二,兼重 直文
ピアノ演奏の際の良くない癖(悪癖)を発見してピアノ教育を支援するツール。演奏者の手指にマーカを付け、3方向から撮影しながらMIDI鍵盤で演奏して、指の動きと実際に打鍵している音を取得する。作成システムでは、取得した動画を再生したり、同じ曲の演奏動画を同期して再生したりでき、教師が悪癖を発見するのを補助することができる。

(9) 楽譜と演奏履歴を用いた深層自己回帰過程に基づく演奏タイミング予測
   前澤 陽
人間と協調する自動伴奏が目標。そのためには人間の演奏タイミングの先読みを行うことが重要。楽譜と演奏履歴から次の演奏タイミングを予測する。従来は「楽譜のみ」「演奏のみ」「楽譜と演奏を使うがオフライン」の手法しかなかったので、楽譜と演奏履歴を利用してオンラインかつ初見で演奏タイミングを予測する方法を開発する。手法としては、AR過程(過去の音符長の線形結合によって次の音符長を予測する)におけるLPC係数を過去の楽譜と演奏からDNNで予測する。評価としてピアノの表情付けを行った。

■作曲支援
(10)作者内一貫性と音楽的典型性を考慮した作曲支援インタフェース
   中村 裕美,中野 倫靖,深山 覚,後藤 真孝
作曲をすでにしている人向けの作曲支援。どれだけその人らしい曲か(作者内一貫性)と、どれだけ普通の音楽らしいか(音楽的典型性)を考慮する。このために、中野による「音楽のありがち度推定」を利用する。特定の楽曲、特定の作曲者の楽曲、全作曲者の楽曲のモデルをそれぞれ作り、それらのモデル間距離を使って楽曲の類似性を求める。作曲支援時には、目標となる一貫性と典型性を決め、そこに近づくような音列を推薦する。実験として、推薦された音列をそのまま追加していくと典型性と一貫性が目標値に近づくことを確かめた。

(11)ディープラーニングによるループ音源の自動生成
   細川 皓平,横山 想一郎,山下 倫央,川村 秀憲
DCGANを使ってループ音源を生成する。波形そのものを学習データとして波形を直接生成するが、実現可能にするようにサンプリング周波数は2048Hzで2秒分を生成。いろいろな制約により、実際に生成した例では学習サンプルを2個ないし4個しか使えていないので、たぶんこれだけではあんまり意味ないだろう。

(12)特徴量軌跡の機械学習に基づくジャズセッションの自動生成
   保利 武志,中村 和幸,嵯峨山 茂樹
一人ジャズセッションのためのジャズ伴奏生成システム。人・機械とも演奏が即興であるところが従来の自動演奏と異なる。音楽演奏を、特徴空間中の時間発展に伴う軌跡だと仮定する。セッションの「良さ」を表現するために、複数の楽器によるセッションでの複数の軌跡の共起関係を確率モデルで表現する。システムとしていくつかのバージョンがあるが、特徴量をGMM-HMMでクラスタリングし、共起制約はBLSTMとDBNで学習する。音高はガウス分布、リズムはPCFGで生成する。軌跡間の対応はHMMの状態対応として学習するが、表現力を上げるために状態の平均値からの変移も考慮する。現状はリアルタイムではないので(BLSTMを使っているので原理的にリアルタイムにならない)、自動伴奏ではなく伴奏の即興演奏生成システムというべきか。

■編曲支援 [13:15-14:15]
(13)音楽音響信号から得られる音楽要素に基づく自動ピアノアレンジ
   高森 啓史,深山 覚,後藤 真孝,森島 繁生
ポピュラー音楽の音響信号からピアノ譜を生成する自動アレンジ。いくつかの制約(メロディが最高音、コードが原曲と同じ、アクセントが原曲と同じ、リズムが原曲と同じ)を満たしつつピアノで演奏可能なアレンジを探索する。入力は音響信号だが、リズム以外の解析はSongleを使う。音響信号からアクセントのある音符位置を求め、右手パートではメロディに対してアクセント位置にコード構成音を足していく。左手については伴奏データベースからコードに合ったものを選択して微調整する。例としてPrologueのアレンジが流されたが、「原曲」として紹介した奴が初音ミクバージョンだった。RWCデータベースのものが原曲じゃないのか。

(14)和音系列の統計的木構造解析とSplit-Mergeサンプリングに基づくメロディへの和声付け
   津島 啓晃,中村 栄太,糸山 克寿,吉井 和佳
メロディに対するコード付与。従来手法に比べ、コード系列の繰り返しを考慮する。コードが直接繰り返すのではなく、機能和声(tonic, dominant, subdominant)レベルで繰り返し構造を想定し、その構造が木構造を形作ると仮定する。モデルとしては、PCFGから機能和声が生成され、機能和声からコードが生成され、マルコフモデルによってコードからリズムが生成され、コードとリズムから音符が生成されるというもの。その逆問題を解くのにMCMCを使う。

■推定・認識 [14:30-16:00]
(15)音響的に自然なつなぎ目の発見による楽曲ループ検出
   安井 拓未,中村 篤祥,田中 章,工藤 峰一
ゲーム音楽をループ再生するための継ぎ目の自動検出。そのために楽曲中から繰り返しを求める。これを最長周期部分列問題として定式化する。距離定義は振幅スペクトルの差分の絶対値をスペクトルのL1ノルムで正規化したもので、距離がある程度近ければ一致しているとする。計算量削減のため、ビートトラッキングによってビート位置を分割単位とする。接続時に不連続が起きないように、ゼロクロス位置で微分係数が一致している場所でつなぐ。部分列発見アルゴリズムは既存なので、ビートトラッキングの正確性が全体の精度を決めるが、そこはありもののライブラリを使っている。

(16)deepGTTM-III: グルーピング構造と拍節構造の自動獲得
   浜中 雅俊,平田 圭二,東条 敏
理研に異動した浜中さん。これまで作ってきたDBNによるグルーピングと拍節構造推定システムの改善。音符のオンセット・オフセット時間、ベロシティ、ピッチを入力として、まずグルーピングルールを推定するネットワークを作り、推定されたグルーピングルールと入力を合わせてグルーピング構造を生成する。拍節構造もほぼ同じで、最後に全体を合わせる。これまでのdeepGTTM(グルーピングと拍節構造を独立に推定)よりも少し性能向上。

(17)調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声F0軌跡に対する音符推定
   錦見 亮,中村 栄太,後藤 真孝,糸山 克寿,吉井 和佳
歌声のF0軌跡から実際に歌唱しようとした音高系列を推定する。調とリズムから楽譜が生成され、楽譜から時間的に逸脱した楽譜が生成され、さらにそこから周波数揺らぎをもったF0系列が生成されるという階層HSMMを使う。調は小節ごとに割り当てられ(転調を考慮)、単純マルコフモデルでモデル化する。音高の生成は調に依存して生成確率を持つ。ビート位置は1小節を16分割した位置のいずれかで、あるビート位置は直線のビート位置に依存する。これらをベイズ推定の枠組みにかけてパラメータ推定。実験の結果、調・楽譜モデルの導入の効果が大きい。

■デモセッション [16:00-18:00]
(18)デモンストレーション:音楽情報処理の研究紹介XVI
   奥村 健太,阪上 大地,荒 哉太,飯尾 英晃,石垣 愛美,齊藤 塁,高橋 公太,武田 郁弥,名畑 皓正,能登 楓,長谷川 麻美,原 史也,藤田 千尋,柳田 拓郎,類家 怜央

以下見たものだけ。

音源解析技術を活用した自動カホン演奏ロボット (UTSUWA)
カホンを演奏するロボット。Twitterアカウントもある( https://twitter.com/cajon_robot )。技術的には、演奏の音響信号からドラムを検出して、バスとスネアのタイミングにあわせてカホンの2か所をロボットがたたき分けるのが見どころ。産総研のSongle Widgetとかと組み合わせると今すぐにニコ動の任意の曲がたたけるようになりそう。

ピアノ学習支援システムを用いた演奏習得におけるチャンク分析(はこだて未来大)
午前中聞いたやつ。何かデモがあるのかと思ったが、出し物はなくてお話をしただけだった。

音を力の変化の信号を使用して再生(コータサウンド)
一昨年のSIGMUS夏シンポで理論は発表済みというのだけど、電子図書館を見たところ、夏シンポではなくて10月の研究会だった。論文はこれ。
https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=145764&item_no=1&page_id=13&block_id=8
デモではこの論文にあった音の補正装置(ディジタル処理をしていたが、おそらくイコライザと同じ)を使って音楽を鳴らしていた。いい音ではあったが、提案装置を使わないとどうなるのかは不明。ちなみに上記論文のほうは、音響系トランスデューサの話であるにもかかわらずインピーダンスという単語が出てこないところからお察し。

三次元に拡張したメロディ概形を用いたギター特殊奏法の自動検出法について(はこだて未来大)
ビブラートやベンドなどの特殊奏法の検出に向けたモデル化の話。これらの奏法にはピッチだけ見ても通常奏法と区別しにくいものがあるので、基本周波数と振幅の両方を特徴量としてみようということなのだが(まあ妥当かな)、それを「メロディ概形」と呼んでいるところで各方面から突っ込まれていた。メロディ概形がだめなら何ならいいのか、ということでディスカッションしたが、「基本正弦波成分」でどうだろう、というアイデアを一応出しておいた。

スパイラルアレイモデルを用いた階層的調性構造を抽出する試みについて(はこだて未来大)
音高、和音、調などをらせん状のモデルで表す理論があり(音のピッチ知覚がらせん状になるやつとは違うらしい)、それを利用して、調の推定には情報が不十分であるようなときも調の推定ができるようにしたいというアイデア。調のらせんを3次元空間上に展開して、楽譜から得られた音符を同じ空間のどこかに写像し、近い調を探すというアイデアだが、らせん状の多様体とそこから外れた空間上の点のユークリッド距離に意味があるのかわからない(あるかもしれないし、ないかもしれない)。

暗意―実現モデルに基づく作曲者らしさ識別へ向けての予備検討(はこだて未来大)
暗意―実現モデルは、3つの音符の高さの変化に関するモデル。元の理論ではこれを何種類かに分類しているのだが、この発表では1番目と2番目の音符、2番目と3番目の音符それぞれの音程を2次元で表し、その分布から作曲家らしさを得ようとしている。作曲家認識が目標ならもっとスマートな方法がありそうだが、目的が何なのか今一つ釈然としなかった。

3視点演奏動画を用いたピアノ演奏者の指使い分析ツールの提案(はこだて未来大)
午前中聞いた。指に付けたマーカから3次元座標を復元するところはすでにツールで可能になっているとのこと。

声量制御のための音声フィードバック器具の設計と実装(はこだて未来大)
声を出しているときに、自分の声を増幅または抑圧してヘッドフォン提示すると、提示音が大きい場合には発声は小さくなり、提示音が小さい場合には発声は大きくなる。同じく、ホワイトノイズを提示すると、提示音が大きいときは発声も大きく、提示音が小さいときは発声も小さくなる。これを利用して、装着者の声の大きさをコントロールする器具を作ろうというアイデア。

筋電位とMIDI情報を用いたドラム演奏における疲労度の簡易計測法の提案(はこだて未来大)
筋電センサで筋電位を観測すると、その変動の周波数分布から筋肉疲労が計測できる。安い筋電センサが使えるようになったので、それを使ってドラム練習者の疲労度を測り、疲れない練習法の教授につなげようというアイデア。筋肉の使い方を教示したいのなら、疲労じゃなくて筋肉の緊張そのものを測ったほうがよいのでは。

音響音楽信号の分散表現法の提案とその楽曲推薦システムへの応用について(はこだて未来大)
音楽の音響特徴から心理量の空間に写像する奴はよくあるが、この研究は音響特徴量をいったん形容詞に変換し、その形容詞をword2vecでベクトルにすることで音楽をベクトル化しようというアイデア。検索の際に形容詞が使えるというのはわからなくもないが、良さがいまひとつピンとこない。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

アレゲはアレゲを呼ぶ -- ある傍観者

読み込み中...