パスワードを忘れた? アカウント作成
12870269 journal
日記

aitoの日記: 2016年7月30日~31日 MUS研究会@東京理科大野田キャンパス

日記 by aito

7月30日 音楽情報科学研究会@東京理科大 野田キャンパス

13:30~ 音楽分析
(1) SMF解析による楽曲の難易度判定(木更津高専)
間に合わなくて途中から。MIDIからピアノ曲の演奏の難しさを推定する手法のようだが、すべてヒューリスティックなのでいろいろ突っ込まれていた。

(2) 平均情報量からみたクラシックギター国際コンクールの自由曲の特徴分析(東海大)
コンクールで使われた曲の分析。最初に人気曲の作曲家の分布などを年代別に分析。また音高・音名・音価それぞれについて、古い作品よりも新しい作品の方がエントロピーが大きい。

(3) 作業用BGMに特化した楽曲推薦システム(筑波大・産総研)
後藤さんチーム。後で聴いたら発表者は学部2年生だそうだ。作業のためのBGMとしては、好きでも嫌いでもない曲が適している。そこで「とても好き」な曲を除くことで、集中力を高める曲を推薦する。再生した曲に対してユーザがフィードバックを入力し、それに基づいて次の曲を推薦する。再生される曲は自動的にサビの部分で終わるが、「もっと聴く」あるいは「スキップ」ボタンで継続再生あるいは中断させることができ、これを嗜好として使う。また、キーボード・マウス・Webアクセスのイベント頻度のBoFのn-gramを使ってユーザの集中度を推定する。また、ほどほどに好きな曲の中で、集中している場合には直前の曲とできるだけ似た曲を、集中していない場合には似ていない曲を選曲する。評価はシミュレーションだが、きっちりやっている印象。

15:15~ オーガナイズドセッション
(4) 統計的文法理論と構成的意味論に基づく音楽理解の計算モデル(JAISTほか)
東条先生。
・4つの問い。
        音楽を音楽と分かりますか?
        意味を伝えるって何が伝わるのですか?
        音楽に文法はありますか?
        音楽に文法を仮定すると何かいいことありますか?
・どこまでが音楽か
        ダーウィンによる音楽に関するquote
        音楽のカンブリア爆発(17C~)
        そこから現代は3つに分かれる(前衛音楽・ジャズなど/クラシック/ポップス)
・意味が伝わるとは
・音楽に文法はあるか
        FSAとCFG
        カデンツには文法がある→シェンカー理論、GTTM
・音楽に文法を仮定すると
        GTTMの木構造を中心に考える

このあと東条先生、平田先生、麻生英樹さんの鼎談。

(5) deepGTTM-II: ディープラーニングに基づく拍節構造分析器(京大)
浜中先生。最初にGTTMの歴史とアプリケーション(予測ピアノ、メロディモーフィング)。アプリに利用するためにはタイムスパン木を手作業で創らなければならない。自動分析をするためのシステムATTAなど。
これまでの解析器の実装は、ナイーブなGTTMの実装と、確率に基づくものの2つがあった。
GTTMへのdeep learningの導入。拍節構造の抽出に使う。
大量の学習データが必要。プレトレーニングにはWebから集めた15000曲、ファインチューニングには自分でラベルを付けた300曲を利用する。
deepGTTM-II。入力は各音符のオンセット・オフセットとベロシティ・ピッチ・グルーピング構造を使い、出力は拍節構造の選好ルール(を使うかどうか?)。

17:00~ 音響信号処理・プログラミング環境
(6) 調・コード・音高・スペクトログラムの階層ベイズモデルに基づく多重音解析(京大)
吉井研。自動採譜のための音高の解析。コードがわかれば音高に対して制約になるので、コードとコード校正音と音高を同時に推定する。正解の音高の前後にずれたり挿入したりする誤りが減少。枠組みは吉井研なのでゴリゴリのベイジアンで、調→コード進行→ピアノロール→スペクトログラムという生成モデル。ピアノロール→スペクトログラムはNMF(ただしアクティベーションは2値)。コード進行は調に依存したHMM。だいぶがんばっているが、音高推定のF値でみると提案手法の導入による性能向上はわずか。

(7) 歌声F0軌跡に対する音符推定のためのベイジアン準ビート同期HMM(京大)
吉井研。歌声F0軌跡とビート位置の情報を入れると音符列が出てくる解析器。そこでオンセットとビート時刻のずれと、音符音高とF0のずれをそれぞれモデル化する。モデル化はHMMだが、音高とオンセット変動と周波数変動を別なモデルで生成し、それぞれのモデルがビート区間で同期して遷移する(といいつつオンセット変動は1つの分布だけで時間的に変動しない)。周波数変動はコーシー分布でモデル化し、幅をΔF0に比例させる。モデル学習はMCMC。単純な多数決による音符推定より性能向上。

(8) DJCoder: DJシステムと密に連携したプログラミング環境(明治大・産総研)
DJプレイでB2B(複数人でのDJプレイ)があるが、それと同じようなことを一人で行うにはどうするか。この提案では、個々のDJプレイ(ミックス)をプログラムで表し、その操作を人間がやる。また、DJがリアルタイムでプログラムを組み替えることができる。提案システムはJavaScriptによるDJシステムTraktor Proに重ねる形で実現している。APIの説明があったが、結構大変そうだなあ。

7月31日 音楽情報科学研究会@東京理科大 野田キャンパス

9:00 特別企画 情報処理学会誌「音楽を軸に広がる情報科学」特集連携講演
「情報処理」2016年6号に掲載された特集の内容の紹介。
・音楽と音声情報処理
SLPの温泉から駆けつけた齋藤先生@東大。音声情報処理と音楽情報処理の各種技術を対応させる形で紹介。「感情推定⇔演奏者推定」「話者適応⇔演奏表情付け」という対応がちょっと目新しい。

・音楽とコンテンツ生成
深山さん@産総研。各種コンテンツ自動生成技術(特に自動作曲)。自動作曲の黎明期から最近の成果まで。ルールベース→事例ベース→機械学習ベースの流れ。今後は音楽音響信号の分析結果を使うものが出てくるだろうという予測。

・音楽と機械学習
吉井先生。機械学習が流行しているが、音楽情報処理分野は感度が低い。音楽分野での機械学習動向を知るために、今年のISMIRの発表をLDAで分析してみた。トピックの大きいところから「アノテーション」「特徴量」「ディープラーニング」「楽譜データ」「評価」「テンポ・ビート」「歌唱表現」「ドラム」「音楽データ」「メロディ分離」「アルゴリズム・確率モデル」「ユーザスタディ」「セグメンテーション・インド音楽」「メロディ」「ネットワーク」「推薦」「音楽サービス」「判断・脳」「音源分離・機械学習」。

・音楽と情報検索
帆足さん。
音楽情報の研究動向:「音響特徴ベース→メタ情報ベース→多様化」
その背景:ダウンロード型からストリーミング型へ(厳密な曲の情報を検索→今聴きたい曲、体験、発見重視の検索へ)
ストリーミングサービスでの検索方法:同一テーマの楽曲を集めたチャンネルを選択。プレイリスト作成の少なくとも一部は人手だと思われる。
研究テーマとして「チャンネルの自動生成」「ユーザの状況に応じて明確な検索クエリなしに検索する」「音楽ストリームの評価」など

・音楽とヴィジュアライゼーション
伊藤先生@お茶大。音楽情報の可視化の意義。典型例としては、楽曲・演奏者の分布の可視化と、特定楽曲の進行や構造の可視化がある。
音楽情報の可視化技術の分類。「1曲 vs. 複数曲」「専門家対象 vs. 一般対象」「楽譜 vs. 音響信号」「表現形式」「対話処理の有無」等。
可視化システムの例。「MusiCube:音楽推薦結果の可視化」「Colorscore: クラシック音楽の楽譜の彩色・ようやく表示」
今後の展望:音楽定額配信時代のインタフェース、ビジュアルアプリ上での実相、アナログ時代の音楽鑑賞手段の復元など。

・音楽とWeb
濱崎さん@産総研。Webによって、音楽の発信・聴取・情報源・コミュニケーション手段などが大きく変わった。音楽とWebの融合研究:ソーシャルデータ基盤としてのWeb(ソーシャルタグやツイート分析など)、サービス基盤としてのWeb(ユーザ参加、成果発信)。
Webネイティブな音楽(典型的にはニコ動におけるVOCALOID音楽)
研究紹介:Songrium/Songrium3D/バブルプレーヤ/RelayPlay

・音楽とHCI
竹川先生@はこだて。インタフェースとしての楽器。楽曲制作→練習→披露→視聴の各フェーズで研究がある。
編曲作曲支援:Max/MSP, UPIC, Hyperscore, Garageband etc.
楽器制作:古典楽器の拡張、新しいデザインの楽器(NIMEで提案されるものなど)
フィジカルコンピューティングからデジタル・ファブリケーション
練習支援、補助からの離脱方法

・音楽とロボット
水本さん@HRI-JP。
音楽とロボットの研究の特徴:身体性、非言語コミュニケーション、参加型エンタテイメント。
ロボットの音楽表現(楽器演奏/舞踊/歌唱)×人間とのインタラクション(あり/なし)
共演者ロボットの問題。同期レベル、時間的制約、雑音への頑健性
共演者の引き込みを考慮したタイミングの同期
 結合振動子系による合奏のモデル化
テルミン演奏ロボット

・音楽と脳科学
寺島さん@NTT。
脳科学と情報科学:脳活動の解析技術、脳活動の理解モデルとして
脳活動の無仮説解析:様々な音を聞かせ、音×脳のボクセルの脳活動の行列を作り、NMFで分析。
聴覚野の階層性と深層学習
学習メカニズムは視覚野と共通

11:00 新博士によるパネルディスカッションV「新博士さんいらっしゃい!」

13:45 楽譜
(11) 視線情報を活用した楽譜追跡システムの構築(はこだて未来大)
楽譜の追跡。従来の演奏情報だけでなく、視線情報とヒューリスティクスを導入し、精度を向上させる。最初に視線のぶれを平滑化し、音符と対応させる。打鍵シーケンスから推定した複数の演奏位置候補について、視線に近くて視線より前の位置に確定する。誤打鍵から復帰する場合については、ヒューリスティックなルールをいくつか用意して対応。視線情報の導入によって、位置の同定率は約70%から約96%ぐらいに向上。

(12) 頷き動作による自動譜めくりシステムでの合図とリズムノリの判別(木更津高専・明治大学)
頷きをトリガとする自動譜めくり。Webカメラ画像に対してHaar-like特徴量で顔を検出し、そこから鼻を抽出してトラッキングする。鼻の位置を特徴量としてジェスチャ(頷き)をHMMで認識する。高精度化のために、頷きとテンポに合わせて頭を動かす動作(リズムノリ)を識別する。単純な閾値で判別すると2/10で取りこぼしがある。

(17) 演奏者の楽譜の休止区間における自動伴奏のテンポ制御(千葉大学・木更津高専・明治大学)
自動伴奏システムEurydiceのテンポ制御。人間が演奏せず伴奏だけがある区間(休止区間)では、休止区間直前のテンポを連続する使用だが、休止区間中でもテンポを演奏者が制御するために、専用のキー(タップキー)をタップすることで音を出さずにテンポを指示する。タップキーとしては、通常のキーボードで演奏に使用しないキーを割り当てる(当該キーが押された場合にはPCから音を出さない)。タップキーの場所とミスタッチのしやすさを調べたところ、端のキーがもっとも推しやすいことがわかったので、それをタップキーとして使う。タップは途中で中断しても良い。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...