パスワードを忘れた? アカウント作成
13464296 journal
日記

aitoの日記: 11/25 SIGMUS@日大まとめ

日記 by aito

■楽器 [11:00-12:00]
(1) 手回しオルゴールの魅力と脳波的考察
   関 妹子,志賀 一雅
最初に手回しオルゴールの紹介。今回利用しているのはカード式。福祉施設での音楽療法(聞くことではなく,ハンドルを回して演奏することによる),保育園や美術館などでの演奏活動。カードを作るワークショップなども開いている。好評なので,手回しオルゴールの音に癒し効果があるのか調べた。効果の計測は脳波によるが,脳波の説明は嘘とは言えないがやや怪しい。脳波の計測には脳力開発研究所というところが作っているアルファテック7という機器を使っているが,これ怪しくないのかなあ。参考文献にはバイオフィードバック学会と日本サイ科学会の論文が並んでいる。演奏の実演では「こんぺいとうの踊り」の演奏を行った。オルゴールは素敵な音色。

(2) RWC楽器音データベースを利用したビブラート音の複数楽器にわたる比較分析
   黒崎 友,平賀 譲
楽器のビブラート奏法による音の分析。楽器による音の高さと強さの変動の違いを調べた。分析にはMatlabのVibrato Analysis Toolboxを利用。F0成分のみを取り出した後,ヒルベルト変換によってAM・FM成分を抽出する。
分析の結果,様々な楽器のビブラート変動周波数(vibrato rate)はいずれも4~6.5Hzぐらい。バイオリンでは音高によらず6Hzでほぼ一定。いずれの楽器でも周波数と音量は同じvibrato rateを持つ。一方,バイオリンでは音量が変わるとvibrato rateが変化する(弱い方が遅くなる)。音量と音高の関係では,順位相と逆位相のデータが両方観測される。
ビブラートの深さ(vibrato depth)については,音量が大きくなると深さも深くなる。
楽器の違いについての分析では,オーボエとフルートはAM優勢,サックスはFM優勢であった。

13:30-14:30 「ISMIR2017報告: 音楽情報科学の世界的な研究動向」
・キーノート
Elaine Chew (Queen Mary U of London)音楽の構造について
 スパイラルアレイ
 Tonal Structure の変曲点
 構造をどう奏でるか テンポでの表現,装飾音での表現(二胡など)
 即興演奏システムでの構造の作り方
 構造の知見を創作へ
  PDQ Bach
  MorpheuSによる自動音楽生成
  不整脈を音楽へ
Roger Dannenberg: Does MIR Stop at Retrieval?
 MIRから創作へ(解析から合成・演奏へ)
 Music creation: Performance, Production, Composition
 自動作曲
 ピッチだけの世界からフレーズと全体的な構造へ
 評価について;主観評価は常に良いとは限らない。データの構造や学習したモデルの構造を分析する。システム出力が識別器や人間をだますことができるか?(GANなど)
・オーラル
Counterpoint by Convolution
 バッハのコラール風の曲の自動生成:CNNとGibbs Samplerを使う
 楽譜の穴埋め問題(削除部分を少しずつ埋める)
Quantifying Music Trends and Facts Using Editorial Metadata from the Discog Database
 音楽研究者は使わないがDJとかには人気のメタデータDiscogを分析した
Artist Prefecences and Cultural, SOcie-economic Distances...
Learning Audio-Sheet Music Correspondence...
 音楽信号(スペクトログラム)とスコアの関係をNNで学習
Video-based Vibrato Detection...
 音符レベルでビブラートの検出と分析。音とビデオから推定した動きの関係とか
Decoding Neurally Relevant Musical Features
Transfer Learning for Music Classification
Drum Transcription via Joit Beat and Drum Modeling using Convolutional RNN
The significance of the low complexity ...
 ピッチとリズムはどっちが類似度に効いているか
Multi-Label Genre Classification...
 マルチジャンル分類データセット 音だけでなくジャケ写,アルバムレビューの文章も使う
Monaural Score-informed source separation for classical music using convolutonal neural network
An analysis/synthesis framework for automatic F0 annotation of multitrack datasets
Deep salience representations for F0 tracking in polyphonic music
Make your own accompaniment ...
 ユーザのソロ音源を使って,オケ音源からそのパートをキャンセルする

・ポスター
DNN/LSTM系が多い CNNもそれなりにある(小節単位)
MidiNet: A convolutional generative adversarial network...
 メロディ生成のDCGAN
Re-visiting the music segmentation problem with crowdsourcing
Chord generation from symbolc melody using BLSTM networks
 メロディからコードの生成をLSTMでやる
One-step detection of backgrund staff lines...
 OMR CNNで楽譜線消去をする
Automatic Playlist sequencing and transitions
 クロスフェードがうまくつながる制約で経路探索
A post-processing procedure for improving music tempo estimates...
 テンポ推定の誤りを訂正する後処理
Chord recognition in symbolc music using semi-markov CRF
 多選率データから和音シンボルとコードを推定
Early MFCC and HPCP Fusion gor robust cover song identification
 音響信号からカバー曲の検出
Score-informed syllable segmentation ...
 アカペラ歌唱とスコアから音声を音節に分割
Improving Note Segmentation in automatic piano music transcription...
 PLCAのアクティベーション行列の二値化のためのHMMパラメータの検証
Multi pitch detection and voice assignment for a capperlla recordings of multiple singers
 多重音採譜とパート割り当て
End-to-end optical music recognition using neural networks
Automatic stylistic composition of Bach chorales with deep LSTM
A study of LSTM networks for polyphonic music sequence modeling
 LSTMのパラメータ値と音符予測精度などの関係性を検証

■演奏支援 [14:45-15:45]
(3) エレキギター演奏自動評価のための音響的特徴量の調査
   下尾 波輝,矢谷 浩司
従来のギター練習支援のための自動評価では,音の高さとタイミングしか考えていなかったが,それ以外にも演奏の良さに関係がある要因があるだろうということで調査。テクニックに関連するものとして,左手と右手の動きを合わせること(hand synchronization)があり,これがうまくいかないと発音区間が短くなる。そこで音の鳴り終わりから次の音のオンセットまでの時間(Lag)を指標とする。また音色に関連する特徴として,「悪い音色」(フレットをきちんと押さえていないことによるビビリ音)を表すTone Stability と Tone Variance を提案。主観評価値と提案の特徴量をSVRで回帰。相関係数0.8ぐらい。実際にデモシステムを作ってデモをやってみていた。

(4) JamGesture:スマートフォンを用いた身体動作による即興演奏支援システム
   水野 創太,白松 俊,北原 鉄朗,一ノ瀬 修吾
スマホを使う即興演奏システム。スマホを持った手の上下で旋律概形を表現する。旋律概形から実際のメロディを生成する方法は著者らの先行研究(マウスで描画した旋律概形からメロディを生成する)と同じ。新規な部分はスマホのポジショントラッキング部分のみ。センシングデータから実際の上下方向位置を推定する場合は,単に加速度を積分するだけでなく,機械学習による推定で精度を上げる。また,スマホの画面をタッチすることによって旋律概形を入力する(手を放すと演奏をやめる)。また,スマホのカメラに映った手の位置から手の上下方向座標の推定をする方法も試している。これにはカラーグローブを利用する。性能としてはカメラを利用した手法のほうが高い。

■招待講演 [16:00-17:00]
(5) 自然言語処理における深層学習の進展
   岡崎 直観
・自然言語処理とは
 言葉を操る賢いコンピュータを作る
  応用:機械翻訳,QA,自動要約,対話,評判分析,情報検索等
  基礎:形態素解析,固有表現解析,構文解析,etc.
  多くのタスクは「入力xから出力yを予測」 hat y = argmax_y P(y|x)
 評判分析の例:単語列からラベルを予測する(positive, neutral, negative)
 品詞タグ付け:単語列からラベル列:
 単語列から木構造:構文解析
・深層学習ブームの幕開け(2012年ごろ)
当初は限定的→最近はDNNが最高性能を達成
・単語の分散表現
 単語の意味をネットワークに埋め込む
 Skip-gram with negative sampling (word2vec)
 word2vecのデモ(安倍晋三-日本+ドイツ=メルケル)
 GloVe(2014) 共起行列の対数をベクトルの内積で予測する
 fastText(2017) 単語シンボルとつづりの情報を使う単語ベクトル
・分散表現の合成
 文の意味をNNで計算:句や文の意味は,その合成に必要なパラメータと合成方法によって合成する
 RNN/LSTMによる文の意味表現の合成
 Recursive Neura Network:句構造に合わせてNNを合成
 Convolutional Neural Networkを1次元に適用する
 Gated Additive Composition:行列をかけないでゲートだけで合成
 Simple Recurrent Unit:ベクトルと行列の積を並列計算できるようにする
・エンコーダ・デコーダ/アテンション
 分散表現からの文生成→機械翻訳,対話文生成,自動要約など
 符号化・復号化モデル:ニューラル機械翻訳
 アテンション:過去の途中までの意味ベクトルを利用する
 アテンションだけの機械翻訳
 対話文生成,動画記述文生成
 ニューラル機械翻訳の挙動の解析
・深層学習により注目を浴びた言語処理のデータセット
 ヘッドライン生成:Gigawordコーパスを使って記事内容からヘッドラインを生成するモデルを推定
 読解タスク:文を読んで穴埋め問題を解く
 質問応答 SQuAD:Wikipedia記事から質問を自動生成→クラウドソーシングで答えを集める
 Stanford Natural Language Infrence (SNLI)
 ストーリー穴埋め

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...