aitoの日記 | スラド

aitoさんのトモダチの日記、みんなの日記も見てね。 アナウンス：スラドとOSDNは受け入れ先を募集中です。

aitoの日記： 11/25 SIGMUS@日大まとめ 0

日記 by aito 2017年11月25日 21時37分

■楽器 [11:00-12:00]
（1）手回しオルゴールの魅力と脳波的考察
　　　関妹子，志賀一雅
最初に手回しオルゴールの紹介。今回利用しているのはカード式。福祉施設での音楽療法（聞くことではなく，ハンドルを回して演奏することによる），保育園や美術館などでの演奏活動。カードを作るワークショップなども開いている。好評なので，手回しオルゴールの音に癒し効果があるのか調べた。効果の計測は脳波によるが，脳波の説明は嘘とは言えないがやや怪しい。脳波の計測には脳力開発研究所というところが作っているアルファテック７という機器を使っているが，これ怪しくないのかなあ。参考文献にはバイオフィードバック学会と日本サイ科学会の論文が並んでいる。演奏の実演では「こんぺいとうの踊り」の演奏を行った。オルゴールは素敵な音色。

（2） RWC楽器音データベースを利用したビブラート音の複数楽器にわたる比較分析
　　　黒崎友，平賀譲
楽器のビブラート奏法による音の分析。楽器による音の高さと強さの変動の違いを調べた。分析にはMatlabのVibrato Analysis Toolboxを利用。F0成分のみを取り出した後，ヒルベルト変換によってAM・FM成分を抽出する。
分析の結果，様々な楽器のビブラート変動周波数(vibrato rate)はいずれも4～6.5Hzぐらい。バイオリンでは音高によらず6Hzでほぼ一定。いずれの楽器でも周波数と音量は同じvibrato rateを持つ。一方，バイオリンでは音量が変わるとvibrato rateが変化する（弱い方が遅くなる）。音量と音高の関係では，順位相と逆位相のデータが両方観測される。
ビブラートの深さ(vibrato depth)については，音量が大きくなると深さも深くなる。
楽器の違いについての分析では，オーボエとフルートはAM優勢，サックスはFM優勢であった。

13:30-14:30 「ISMIR2017報告: 音楽情報科学の世界的な研究動向」
・キーノート
Elaine Chew (Queen Mary U of London)音楽の構造について
　スパイラルアレイ
　Tonal Structure の変曲点
　構造をどう奏でるか　テンポでの表現，装飾音での表現（二胡など）
　即興演奏システムでの構造の作り方
　構造の知見を創作へ
　　PDQ Bach
　　MorpheuSによる自動音楽生成
　　不整脈を音楽へ
Roger Dannenberg: Does MIR Stop at Retrieval?
　MIRから創作へ（解析から合成・演奏へ）
　Music creation: Performance, Production, Composition
　自動作曲
　ピッチだけの世界からフレーズと全体的な構造へ
　評価について;主観評価は常に良いとは限らない。データの構造や学習したモデルの構造を分析する。システム出力が識別器や人間をだますことができるか？（GANなど）
・オーラル
Counterpoint by Convolution
　バッハのコラール風の曲の自動生成：CNNとGibbs Samplerを使う
　楽譜の穴埋め問題（削除部分を少しずつ埋める）
Quantifying Music Trends and Facts Using Editorial Metadata from the Discog Database
　音楽研究者は使わないがDJとかには人気のメタデータDiscogを分析した
Artist Prefecences and Cultural, SOcie-economic Distances...
Learning Audio-Sheet Music Correspondence...
　音楽信号（スペクトログラム）とスコアの関係をNNで学習
Video-based Vibrato Detection...
　音符レベルでビブラートの検出と分析。音とビデオから推定した動きの関係とか
Decoding Neurally Relevant Musical Features
Transfer Learning for Music Classification
Drum Transcription via Joit Beat and Drum Modeling using Convolutional RNN
The significance of the low complexity ...
　ピッチとリズムはどっちが類似度に効いているか
Multi-Label Genre Classification...
　マルチジャンル分類データセット　音だけでなくジャケ写，アルバムレビューの文章も使う
Monaural Score-informed source separation for classical music using convolutonal neural network
An analysis/synthesis framework for automatic F0 annotation of multitrack datasets
Deep salience representations for F0 tracking in polyphonic music
Make your own accompaniment ...
　ユーザのソロ音源を使って，オケ音源からそのパートをキャンセルする

・ポスター
DNN/LSTM系が多い　CNNもそれなりにある（小節単位）
MidiNet: A convolutional generative adversarial network...
　メロディ生成のDCGAN
Re-visiting the music segmentation problem with crowdsourcing
Chord generation from symbolc melody using BLSTM networks
　メロディからコードの生成をLSTMでやる
One-step detection of backgrund staff lines...
　OMR CNNで楽譜線消去をする
Automatic Playlist sequencing and transitions
　クロスフェードがうまくつながる制約で経路探索
A post-processing procedure for improving music tempo estimates...
　テンポ推定の誤りを訂正する後処理
Chord recognition in symbolc music using semi-markov CRF
　多選率データから和音シンボルとコードを推定
Early MFCC and HPCP Fusion gor robust cover song identification
　音響信号からカバー曲の検出
Score-informed syllable segmentation ...
　アカペラ歌唱とスコアから音声を音節に分割
Improving Note Segmentation in automatic piano music transcription...
　PLCAのアクティベーション行列の二値化のためのHMMパラメータの検証
Multi pitch detection and voice assignment for a capperlla recordings of multiple singers
　多重音採譜とパート割り当て
End-to-end optical music recognition using neural networks
Automatic stylistic composition of Bach chorales with deep LSTM
A study of LSTM networks for polyphonic music sequence modeling
　LSTMのパラメータ値と音符予測精度などの関係性を検証

■演奏支援 [14:45-15:45]
（3）エレキギター演奏自動評価のための音響的特徴量の調査
　　　下尾波輝，矢谷浩司
従来のギター練習支援のための自動評価では，音の高さとタイミングしか考えていなかったが，それ以外にも演奏の良さに関係がある要因があるだろうということで調査。テクニックに関連するものとして，左手と右手の動きを合わせること(hand synchronization)があり，これがうまくいかないと発音区間が短くなる。そこで音の鳴り終わりから次の音のオンセットまでの時間(Lag)を指標とする。また音色に関連する特徴として，「悪い音色」（フレットをきちんと押さえていないことによるビビリ音）を表すTone Stability と Tone Variance を提案。主観評価値と提案の特徴量をSVRで回帰。相関係数0.8ぐらい。実際にデモシステムを作ってデモをやってみていた。

（4） JamGesture:スマートフォンを用いた身体動作による即興演奏支援システム
　　　水野創太，白松俊，北原鉄朗，一ノ瀬修吾
スマホを使う即興演奏システム。スマホを持った手の上下で旋律概形を表現する。旋律概形から実際のメロディを生成する方法は著者らの先行研究（マウスで描画した旋律概形からメロディを生成する）と同じ。新規な部分はスマホのポジショントラッキング部分のみ。センシングデータから実際の上下方向位置を推定する場合は，単に加速度を積分するだけでなく，機械学習による推定で精度を上げる。また，スマホの画面をタッチすることによって旋律概形を入力する（手を放すと演奏をやめる）。また，スマホのカメラに映った手の位置から手の上下方向座標の推定をする方法も試している。これにはカラーグローブを利用する。性能としてはカメラを利用した手法のほうが高い。

■招待講演 [16:00-17:00]
（5）自然言語処理における深層学習の進展
　　　岡崎直観
・自然言語処理とは
　言葉を操る賢いコンピュータを作る
　　応用：機械翻訳，QA，自動要約，対話，評判分析，情報検索等
　　基礎：形態素解析，固有表現解析，構文解析，etc.
　　多くのタスクは「入力xから出力yを予測」 hat y = argmax_y P(y|x)
　評判分析の例：単語列からラベルを予測する(positive, neutral, negative)
　品詞タグ付け：単語列からラベル列：
　単語列から木構造：構文解析
・深層学習ブームの幕開け（2012年ごろ）
当初は限定的→最近はDNNが最高性能を達成
・単語の分散表現
　単語の意味をネットワークに埋め込む
　Skip-gram with negative sampling (word2vec)
　word2vecのデモ（安倍晋三-日本+ドイツ＝メルケル）
　GloVe(2014) 共起行列の対数をベクトルの内積で予測する
　fastText(2017) 単語シンボルとつづりの情報を使う単語ベクトル
・分散表現の合成
　文の意味をNNで計算：句や文の意味は，その合成に必要なパラメータと合成方法によって合成する
　RNN/LSTMによる文の意味表現の合成
　Recursive Neura Network：句構造に合わせてNNを合成
　Convolutional Neural Networkを1次元に適用する
　Gated Additive Composition：行列をかけないでゲートだけで合成
　Simple Recurrent Unit：ベクトルと行列の積を並列計算できるようにする
・エンコーダ・デコーダ/アテンション
　分散表現からの文生成→機械翻訳，対話文生成，自動要約など
　符号化・復号化モデル：ニューラル機械翻訳
　アテンション：過去の途中までの意味ベクトルを利用する
　アテンションだけの機械翻訳
　対話文生成，動画記述文生成
　ニューラル機械翻訳の挙動の解析
・深層学習により注目を浴びた言語処理のデータセット
　ヘッドライン生成：Gigawordコーパスを使って記事内容からヘッドラインを生成するモデルを推定
　読解タスク：文を読んで穴埋め問題を解く
　質問応答 SQuAD：Wikipedia記事から質問を自動生成→クラウドソーシングで答えを集める
　Stanford Natural Language Infrence (SNLI)
　ストーリー穴埋め

aitoの日記： 8月26日　SIGMUS夏シンポ3日目まとめ 0

日記 by aito 2017年08月26日 11時07分

8月26日（土）
■分析 [9:00-10:30}
（19）作曲者判定タスクのために分析すべき楽曲の長さ
　　　高本綺架，吉田光男，梅村恭司，市川裕子
このグループでは、データ圧縮効率によって作曲者を当てるという手法を試している。前回は既存のデータ圧縮ツールを使っていたが、今回は自前でデータ圧縮を行う。提案手法はMultigram言語モデルみたいな方法で、ピアノロール×16分音符の2次元に発音しているかどうかの0/1パターンを作り、それを連結した１次元データから辞書を作って圧縮する。辞書作成の時に何個の音まで利用するかを調べたところ、連続する２音まで使うとほとんどのデータに対して正解することができる。多分各時刻の発音パターンを符号化して符号の分布を考えるのと似たことをしていて、そちらの方が性能が高くなる気がする（いずれにしても、このタスクは簡単なので何を使っても性能は高いだろう）。

（20）多重ラベル分類を用いた意外性を有する楽曲検索・推薦手法の実験的考察
　　　大久保好章，原口誠，劉赫宇
楽曲検索で、楽曲には音響情報とユーザによるタグ（ラベル）情報がついていると仮定した場合、クエリとして楽曲を与え、それに音楽的には似ているがラベル情報は必ずしも似ていない検索結果集合を求める方法。クエリにはラベルがついていないので、まずクエリについているであろうラベルを推定する。次に推定されたラベルから遠くてクエリには近い楽曲集合を求める。実際にはクエリのラベルを直接求めるのではなく、ラベルの空間を１次元にした空間への写像を求めて、１次元（直線）上で遠い楽曲を持ってくる。実験対象はMillion Song Datasetのベンチマークセットから24万曲。まだ実験を始めたところで結果は例だけ。

（21）TextTimeline: 文字表示を保持した発話テキストの音響特徴可視化
　　　中野倫靖，加藤淳，後藤真孝
音声の特徴を反映して文字を表示する可視化方式。歌詞を横方向に表示し、音節ごとに音ゲーのように縦方向の長さが継続時間に比例したブロックが流れてくるデザイン。このデザインになるまでのサーベイやデザインポリシーの説明がとてもわかりやすかった。

■音楽データ [10:45-11:45]
（22）楽譜記述言語MusicXMLの拡張による楽典を考慮した和声解析フレームワークの提案
　　　清水祐輔，沼尾雅之
和声の解析をする際に、（筆者らの）これまでの研究では楽典の知識を使っていなかったので、楽典に沿った解釈によって和声解析をするためのフレームワークを作成した。拍節構造を考慮した構成音収集、楽典による解釈付与、和音の候補付与、候補の絞り込み、記譜などをフレームワーク上で行うことができる。楽典解釈の付与の部分ではいきなり実装の説明があって妥当性がよくわからない。また、処理とそのためのデータ構造のXML表現の両方が出てくるのだが、XML表現（MusicXMLの拡張）の提案とそれを処理する処理系の提案を同時に行っているということだろうか。

（23）ピアニストの演奏解釈を記述した演奏表情データベースの構築
　　　橋田光代，兼口敦音，中村栄太，古屋晋一，小川容子，片寄晴弘
これまで集めていたピアノ曲の表情データベースCrestMusePEDBを増強する話。PEDB 2nd versionではピアノのプロ奏者がMIDIピアノで演奏した曲を収録するほか、演奏者の解釈情報も収録し、全部で400弱の演奏を収録する予定。解釈は演奏者の主観に基づくので、アノテーションとXML化するのはたぶん人力なので大変そう。さまざまな「解釈の違い」による演奏の違いのデモがあった。

aitoの日記： 8月25日　SIGMUS夏シンポ２日目まとめ 0

日記 by aito 2017年08月25日 20時01分

8月25日（金）
■演奏支援 [9:00-10:30]
（7）グラウンデッド・セオリー・アプローチ的方法によるピアノ演奏習得におけるチャンク形成要因の予備分析
　　　石垣愛美，竹川佳成，平田圭二，冨永敦子
楽譜のまとまり（チャンク）が学習者の認知としてどのように形成されるのかを、Grounded Theory Approach (GTA)という理論に沿って分析する。ピアノ曲を題材に、直接演奏する場合と、楽譜と音楽を視聴するだけの場合でチャンクの獲得過程を比較。これを実験して分析するの大変だったろうなあ。分析を通して、チャンクを「譜面チャンク」「演奏チャンク」「音楽知識チャンク」の３つの大分類に分類。音楽を何回か演奏または視聴することで、どの分類のチャンクの比率がどの程度あるのかを分析した。経験者と初心者で傾向が違うが、演奏を行わないで楽譜を視聴するだけだと演奏に関するチャンクが形成されないという傾向があった。

（8）多視点演奏映像を活用したピアノ演奏指使い分析ツールの提案
　　　長谷川麻美，竹川佳成，平田圭二，兼重直文
ピアノ演奏の際の良くない癖（悪癖）を発見してピアノ教育を支援するツール。演奏者の手指にマーカを付け、３方向から撮影しながらMIDI鍵盤で演奏して、指の動きと実際に打鍵している音を取得する。作成システムでは、取得した動画を再生したり、同じ曲の演奏動画を同期して再生したりでき、教師が悪癖を発見するのを補助することができる。

（9）楽譜と演奏履歴を用いた深層自己回帰過程に基づく演奏タイミング予測
　　　前澤陽
人間と協調する自動伴奏が目標。そのためには人間の演奏タイミングの先読みを行うことが重要。楽譜と演奏履歴から次の演奏タイミングを予測する。従来は「楽譜のみ」「演奏のみ」「楽譜と演奏を使うがオフライン」の手法しかなかったので、楽譜と演奏履歴を利用してオンラインかつ初見で演奏タイミングを予測する方法を開発する。手法としては、AR過程（過去の音符長の線形結合によって次の音符長を予測する)におけるLPC係数を過去の楽譜と演奏からDNNで予測する。評価としてピアノの表情付けを行った。

■作曲支援
（10）作者内一貫性と音楽的典型性を考慮した作曲支援インタフェース
　　　中村裕美，中野倫靖，深山覚，後藤真孝
作曲をすでにしている人向けの作曲支援。どれだけその人らしい曲か（作者内一貫性）と、どれだけ普通の音楽らしいか（音楽的典型性）を考慮する。このために、中野による「音楽のありがち度推定」を利用する。特定の楽曲、特定の作曲者の楽曲、全作曲者の楽曲のモデルをそれぞれ作り、それらのモデル間距離を使って楽曲の類似性を求める。作曲支援時には、目標となる一貫性と典型性を決め、そこに近づくような音列を推薦する。実験として、推薦された音列をそのまま追加していくと典型性と一貫性が目標値に近づくことを確かめた。

（11）ディープラーニングによるループ音源の自動生成
　　　細川皓平，横山想一郎，山下倫央，川村秀憲
DCGANを使ってループ音源を生成する。波形そのものを学習データとして波形を直接生成するが、実現可能にするようにサンプリング周波数は2048Hzで2秒分を生成。いろいろな制約により、実際に生成した例では学習サンプルを2個ないし4個しか使えていないので、たぶんこれだけではあんまり意味ないだろう。

（12）特徴量軌跡の機械学習に基づくジャズセッションの自動生成
　　　保利武志，中村和幸，嵯峨山茂樹
一人ジャズセッションのためのジャズ伴奏生成システム。人・機械とも演奏が即興であるところが従来の自動演奏と異なる。音楽演奏を、特徴空間中の時間発展に伴う軌跡だと仮定する。セッションの「良さ」を表現するために、複数の楽器によるセッションでの複数の軌跡の共起関係を確率モデルで表現する。システムとしていくつかのバージョンがあるが、特徴量をGMM－HMMでクラスタリングし、共起制約はBLSTMとDBNで学習する。音高はガウス分布、リズムはPCFGで生成する。軌跡間の対応はHMMの状態対応として学習するが、表現力を上げるために状態の平均値からの変移も考慮する。現状はリアルタイムではないので（BLSTMを使っているので原理的にリアルタイムにならない）、自動伴奏ではなく伴奏の即興演奏生成システムというべきか。

■編曲支援 [13:15-14:15]
（13）音楽音響信号から得られる音楽要素に基づく自動ピアノアレンジ
　　　高森啓史，深山覚，後藤真孝，森島繁生
ポピュラー音楽の音響信号からピアノ譜を生成する自動アレンジ。いくつかの制約（メロディが最高音、コードが原曲と同じ、アクセントが原曲と同じ、リズムが原曲と同じ）を満たしつつピアノで演奏可能なアレンジを探索する。入力は音響信号だが、リズム以外の解析はSongleを使う。音響信号からアクセントのある音符位置を求め、右手パートではメロディに対してアクセント位置にコード構成音を足していく。左手については伴奏データベースからコードに合ったものを選択して微調整する。例としてPrologueのアレンジが流されたが、「原曲」として紹介した奴が初音ミクバージョンだった。RWCデータベースのものが原曲じゃないのか。

（14）和音系列の統計的木構造解析とSplit-Mergeサンプリングに基づくメロディへの和声付け
　　　津島啓晃，中村栄太，糸山克寿，吉井和佳
メロディに対するコード付与。従来手法に比べ、コード系列の繰り返しを考慮する。コードが直接繰り返すのではなく、機能和声(tonic, dominant, subdominant)レベルで繰り返し構造を想定し、その構造が木構造を形作ると仮定する。モデルとしては、PCFGから機能和声が生成され、機能和声からコードが生成され、マルコフモデルによってコードからリズムが生成され、コードとリズムから音符が生成されるというもの。その逆問題を解くのにMCMCを使う。

■推定・認識 [14:30-16:00]
（15）音響的に自然なつなぎ目の発見による楽曲ループ検出
　　　安井拓未，中村篤祥，田中章，工藤峰一
ゲーム音楽をループ再生するための継ぎ目の自動検出。そのために楽曲中から繰り返しを求める。これを最長周期部分列問題として定式化する。距離定義は振幅スペクトルの差分の絶対値をスペクトルのL1ノルムで正規化したもので、距離がある程度近ければ一致しているとする。計算量削減のため、ビートトラッキングによってビート位置を分割単位とする。接続時に不連続が起きないように、ゼロクロス位置で微分係数が一致している場所でつなぐ。部分列発見アルゴリズムは既存なので、ビートトラッキングの正確性が全体の精度を決めるが、そこはありもののライブラリを使っている。

（16）deepGTTM-III: グルーピング構造と拍節構造の自動獲得
　　　浜中雅俊，平田圭二，東条敏
理研に異動した浜中さん。これまで作ってきたDBNによるグルーピングと拍節構造推定システムの改善。音符のオンセット・オフセット時間、ベロシティ、ピッチを入力として、まずグルーピングルールを推定するネットワークを作り、推定されたグルーピングルールと入力を合わせてグルーピング構造を生成する。拍節構造もほぼ同じで、最後に全体を合わせる。これまでのdeepGTTM（グルーピングと拍節構造を独立に推定）よりも少し性能向上。

（17）調とリズムを考慮した階層隠れセミマルコフモデルに基づく歌声F0軌跡に対する音符推定
　　　錦見亮，中村栄太，後藤真孝，糸山克寿，吉井和佳
歌声のF0軌跡から実際に歌唱しようとした音高系列を推定する。調とリズムから楽譜が生成され、楽譜から時間的に逸脱した楽譜が生成され、さらにそこから周波数揺らぎをもったF0系列が生成されるという階層HSMMを使う。調は小節ごとに割り当てられ（転調を考慮）、単純マルコフモデルでモデル化する。音高の生成は調に依存して生成確率を持つ。ビート位置は1小節を16分割した位置のいずれかで、あるビート位置は直線のビート位置に依存する。これらをベイズ推定の枠組みにかけてパラメータ推定。実験の結果、調・楽譜モデルの導入の効果が大きい。

■デモセッション [16:00-18:00]
（18）デモンストレーション：音楽情報処理の研究紹介XVI
　　　奥村健太，阪上大地，荒哉太，飯尾英晃，石垣愛美，齊藤塁，高橋公太，武田郁弥，名畑皓正，能登楓，長谷川麻美，原史也，藤田千尋，柳田拓郎，類家怜央

以下見たものだけ。

音源解析技術を活用した自動カホン演奏ロボット (UTSUWA)
カホンを演奏するロボット。Twitterアカウントもある( https://twitter.com/cajon_robot )。技術的には、演奏の音響信号からドラムを検出して、バスとスネアのタイミングにあわせてカホンの2か所をロボットがたたき分けるのが見どころ。産総研のSongle Widgetとかと組み合わせると今すぐにニコ動の任意の曲がたたけるようになりそう。

ピアノ学習支援システムを用いた演奏習得におけるチャンク分析（はこだて未来大）
午前中聞いたやつ。何かデモがあるのかと思ったが、出し物はなくてお話をしただけだった。

音を力の変化の信号を使用して再生（コータサウンド）
一昨年のSIGMUS夏シンポで理論は発表済みというのだけど、電子図書館を見たところ、夏シンポではなくて10月の研究会だった。論文はこれ。
https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=145764&item_no=1&page_id=13&block_id=8
デモではこの論文にあった音の補正装置（ディジタル処理をしていたが、おそらくイコライザと同じ）を使って音楽を鳴らしていた。いい音ではあったが、提案装置を使わないとどうなるのかは不明。ちなみに上記論文のほうは、音響系トランスデューサの話であるにもかかわらずインピーダンスという単語が出てこないところからお察し。

三次元に拡張したメロディ概形を用いたギター特殊奏法の自動検出法について（はこだて未来大）
ビブラートやベンドなどの特殊奏法の検出に向けたモデル化の話。これらの奏法にはピッチだけ見ても通常奏法と区別しにくいものがあるので、基本周波数と振幅の両方を特徴量としてみようということなのだが（まあ妥当かな）、それを「メロディ概形」と呼んでいるところで各方面から突っ込まれていた。メロディ概形がだめなら何ならいいのか、ということでディスカッションしたが、「基本正弦波成分」でどうだろう、というアイデアを一応出しておいた。

スパイラルアレイモデルを用いた階層的調性構造を抽出する試みについて（はこだて未来大）
音高、和音、調などをらせん状のモデルで表す理論があり（音のピッチ知覚がらせん状になるやつとは違うらしい）、それを利用して、調の推定には情報が不十分であるようなときも調の推定ができるようにしたいというアイデア。調のらせんを3次元空間上に展開して、楽譜から得られた音符を同じ空間のどこかに写像し、近い調を探すというアイデアだが、らせん状の多様体とそこから外れた空間上の点のユークリッド距離に意味があるのかわからない（あるかもしれないし、ないかもしれない）。

暗意―実現モデルに基づく作曲者らしさ識別へ向けての予備検討（はこだて未来大）
暗意―実現モデルは、3つの音符の高さの変化に関するモデル。元の理論ではこれを何種類かに分類しているのだが、この発表では1番目と2番目の音符、2番目と3番目の音符それぞれの音程を2次元で表し、その分布から作曲家らしさを得ようとしている。作曲家認識が目標ならもっとスマートな方法がありそうだが、目的が何なのか今一つ釈然としなかった。

3視点演奏動画を用いたピアノ演奏者の指使い分析ツールの提案（はこだて未来大）
午前中聞いた。指に付けたマーカから3次元座標を復元するところはすでにツールで可能になっているとのこと。

声量制御のための音声フィードバック器具の設計と実装（はこだて未来大）
声を出しているときに、自分の声を増幅または抑圧してヘッドフォン提示すると、提示音が大きい場合には発声は小さくなり、提示音が小さい場合には発声は大きくなる。同じく、ホワイトノイズを提示すると、提示音が大きいときは発声も大きく、提示音が小さいときは発声も小さくなる。これを利用して、装着者の声の大きさをコントロールする器具を作ろうというアイデア。

筋電位とMIDI情報を用いたドラム演奏における疲労度の簡易計測法の提案（はこだて未来大）
筋電センサで筋電位を観測すると、その変動の周波数分布から筋肉疲労が計測できる。安い筋電センサが使えるようになったので、それを使ってドラム練習者の疲労度を測り、疲れない練習法の教授につなげようというアイデア。筋肉の使い方を教示したいのなら、疲労じゃなくて筋肉の緊張そのものを測ったほうがよいのでは。

音響音楽信号の分散表現法の提案とその楽曲推薦システムへの応用について（はこだて未来大）
音楽の音響特徴から心理量の空間に写像する奴はよくあるが、この研究は音響特徴量をいったん形容詞に変換し、その形容詞をword2vecでベクトルにすることで音楽をベクトル化しようというアイデア。検索の際に形容詞が使えるというのはわからなくもないが、良さがいまひとつピンとこない。

aitoの日記： 8月24日　SIGMUS夏シンポ１日目まとめ 0

日記 by aito 2017年08月25日 9時06分

8月24日（木）
■アプリケーション・歌唱支援 [13:00-15:00]
（1）背景音楽のテンポが休息時の作業者に与える効果：生理的指標の評価
　　　村上昌志，坂本隆，加藤俊一
作業後の休息時間中に音楽を聞かせる場合に、音楽のテンポが休息効果にどう影響するかをしらべた。被験者にTOEICの模擬テストをやらせたあと、同じピアノ曲を60/120/180BPMの3条件で聞かせ、心拍の揺らぎのLF/HF比（ストレス指標）を測った。その結果、音楽がないよりもあったほうがよく、BPMが小さいほうがストレス指標が下がった（ストレス解消効果が高い）。ストレス解消効果があるBPMの下限はどこかという質問が出た。今回はピアノ曲なので、BPMが大きい方が全体のパワーが大きくてラウドネスが大きい（かもしれない）ことが影響しているのではないかとコメントした。

（2） MachineDancing: ポーズの変化に関する大局的制約と音楽と動作の局所的制約を同時に考慮したダンス自動生成
　　　深山覚，後藤真孝
音楽信号からのダンス動画の自動生成。音楽の分析結果（拍や構造）と個別の動作に分解されたダンスモーションのデータベースから学習を行い、音楽の拍ごとにモーションを予測する。従来は、いくつかの局所的な制約（音楽のビートと動作速度の対応、動作の滑らかさ制約など）の下で尤度を最大化する姿勢系列を生成していた。今回の発表では、大局的な制約を持った動作（ステップ、バースごとの繰り返し、場所を移動する動作など）を導入した。あらかじめ拍の強度をクラスタリングしておき、似た強度の拍では似たようなモーションをつける。音楽構造で対応が取れる部分に似た動作を割り当てることで制約を導入する。また、Kinectで取った製作者のモーションに似たモーションを生成する。このためには上半身と下半身のモーションを別々に解くのを繰り返していて面白い。

（3）楽曲中の歌声とユーザ歌唱のリアルタイムアラインメントに基づく伴奏追従型カラオケシステム
　　　和田雄介，坂東宜昭，中村栄太，糸山克寿，吉井和佳
ユーザの歌唱に合わせて伴奏するシステム。伴奏の元が音響信号であるところが新しい（伴奏がMIDIである研究は既存）。歌声付きの伴奏を用意し、その３秒分のスペクトログラムから音源分離によって歌声と伴奏を分離する。次に分離した歌声と入力歌唱とのアラインメントによって伴奏速度を推定し、それにしたがって分離された伴奏信号を伸縮して流す。アラインメントにはF0とMFCCの両方を利用する。伴奏の伸縮はフェーズボコーダ。

（4）既存歌唱曲アレンジのための歌声キーボード
　　　尾島優太，中野倫靖，深山覚，加藤淳，後藤真孝，糸山克寿，吉井和佳
混合音楽信号のドラムパートや伴奏パートをすげかえる研究はすでにあるが、この研究はボーカルパートを操作する。単にボーカルパートを挿げ替えるのではなく、キーボードを使ってリアルタイムに歌い方を操作することができる。音ゲーのようにピアノロール上で音符が落ちてくるインタフェースがあり、音符に合わせてキーボードを弾くことによってボーカルを演奏する。音高の変更、ハモリパートや輪唱の挿入などができる。手法としては、まずRobust PCAに基づく音源分離によって伴奏とボーカルを分離し、拍の推定によってボーカル信号を音符に分ける。ピッチシフトはPSOLA。音源分離は分離性能は高そうだがミュージカルノイズがひどくて音は悪い。その部分を改善すると面白そう。

■分離 [15:15-16:15]
（5）複素ラプラス分布に基づく非負値行列因子分解
　　　丹治寛樹，村上隆啓，鎌田弘之
Itakura-Saito距離を使うNMFは複素スペクトルに複素正規分布を仮定しているが、実際のスペクトルの分布はもっと尖っているので、尖った分布を生成されやすいモデルとして複素ラプラス分布を使うNMFを提案。ピアノとエレキギターの多重音分解を使って評価。いろいろやっているが、性能は他のNMFと同程度。

（6）モノラル音響信号に対する音源分離のための無限相関テンソル分解
　　　吉井和佳
複素スペクトルに対する分解。吉井先生が以前提案していたPSDTF（半正定値テンソル分解）では周波数方向の相関を考慮していたが、提案法では時間と周波数双方の相関を考慮した分解を行う。そのために、複素スペクトログラムの各時間の周波数成分を全時間について並べて１つのベクトルにしたうえで共分散行列を計算する。そのうえで、その巨大行列を周波数方向の共分散行列と時間方向の共分散行列のクロネッカー積として近似する。生成モデルとしては、１つの確率モデルから一度にスペクトログラムが生成される形になる。

このあと企画セッションとして、音楽関連の各種国際会議の紹介セッションを行った。私が企画したが、おおむね好評だったものの、ちょっとまとまりに欠けたという意見もあった。ちょっと反省。

aitoの日記： IIH-MSP2017@松江 3日目 0

日記 by aito 2017年08月15日 12時57分

2017/08/15

Session C01: Massive Image/Video Compression and Transmission for Emerging Networks
このセッションでは座長が来られなかったのでPan先生が座長をやる。

Extraction of EEG Components Based on Time-frequency Blind Source Separation (Xue-Ying Zhang et al)
No Show.

An Algorithm for Asymmetric Clipping Detection based on Parameter Optimization (Jiwei Zhang et al)
Niu先生が発表。「非対称クリッピング」というのは単に写真の（中心でない）部分を切り出すことのようだ。この研究では、カメラのパラメータを推定することで、対象の写真が撮影された画像の一部を切り出したものかどうかを推定する。途中の計算はよくわからなかったが、principal point（消失点みたいなもの？）を求め、それが画像中心から外れていれば切り出しを行ったと判断する。同様に消失点を使った方法も紹介されたのでprincipal pointは消失点ではないのかなあ。

Automatic Facial Age Estimate based on Convolution Neural Network (Jiancheng Zou et al)
No Show

The Application of Eye Tracking in Education (Yuyang Sun et al)
No Show

Adaptive Multiple Description Depth Image Coding Based on Wavelet Sub-band Coefficients (Jingyuan Ma et al)
No Show

Robust Unseen Visible Watermarking for Depth Map Protection in 3D Video Classification (Zhaotian Li et al)
2次元映像から深度マップを抽出し、深度マップから3次元映像をレンダリングする。深度マップをUVW (Unseen Visible Watermark)という方法で2次元映像に埋め込む。オリジナルのUVWを頑健にしたとのことだが、UVWを知らないので何が違うのかわからん。ともかくDCT領域に埋め込むらしい。深度マップを保護するために3次元映像に埋め込むとのことだが、「単に深度マップを暗号化して個別に送るのと比べて何がいいのか？」と聞いてみたところ、要領を得なかった。Unseen Visible Watermarkというのは、Visible Watermarkみたいに隅っこにマークが出るのだが、実は裏に別なデータが仕込まれているものらしい。

Session C02: Recent Advance in Multimedia Signal Processing Techniques
このセッションはC01の後のはずだったのだが、ふと気がつくと別な部屋でやっていた。そんなんありか。

Boosted HOG Features and Its Application on Object Movement Detection (Junzo Watada et al)

Training method for a Feed Forward Neural Network (Haydee Melo et al)

Fast Intra Mode Decision Algorithm for 3D-HEVC Transcoding (XuiJun Feng)

SURF Algorithm-based Panoramic Image Mosaic Application (Junzo Watada et al)
これの途中で部屋に入った。

Automatic People Conter in Store Using a Low-Cost IoT Sensing Platform (Supatta Viriyavisuthisakul et al)
山崎先生のところの人。カメラを使ってコンビニへの客の出入りを自動計測する。本体はラズパイでOpenCV利用。学生の演習としては面白いが、客の出入りだけなら赤外線センサで十分なんじゃないのか。

GUI of GMS Simulation Tool Using Fuzzy Methods (Yeonchan Lee et al)
第2著者のChoi先生が発表。GMSはGenerator Maintainance Systemで、発電所の発電機のメンテナンス計画をどう立てるかという話。電力会社はできるだけメンテナンスを省いて稼働率を上げたいし、政府はきちんとメンテナンスをさせて安定性を上げたいなど、互いに矛盾する評価基準がある。整数計画問題なので、通常遺伝的アルゴリズムなどによって解く。この発表では、ファジィ理論を使って各種指標のメンバーシップ関数を定義し、互いに適当に妥協する解を求めようとしている。GUIも作成しているが、この手のものを必要としているのは電力会社の中枢だけなので、研究としてGUIを作ったりする意味があるのか疑問。

aitoの日記： IIH-MSP2017@松江２日目 0

日記 by aito 2017年08月15日 8時49分

2017/08/14

Keynote Speech II
Flexible, Personalized and Expressive Speech Synthesis Based on Statistical Approaches
Prof. Takashi Nose
Tohoku University, Japan
能勢先生による音声合成技術のレクチャー。
・音声合成のさまざまなアプリケーション。音声対話システム、オーディオブック、歌声合成、ゲームなど
・TTSのさまざまな種類。単語置換、ダイフォン、ユニット選択、統計ベース
・統計的音声合成の概要
・音声のパラメータ化（音声→スペクトル＋F0→音声）
・HMMとDNNによる合成の枠組み
・合成音声の個人化：平均声と話者適応
　HMMとDNNそれぞれの話者適応手法
・スタイル制御
　HMM：スタイルベクトルによる制御
・特定の単語を強調する：F0制御
・柔軟な音声合成：テーラーメード音声合成
　各単語のF0を手動で変更する
・各種アプリケーションは時間の都合で名前だけ。
質疑応答は結構活発で、「特定の歌手の歌声が合成できるのか？」などの質問があった。

Session B01: Advances in Speech and Language Processing

Dialog-based Interactive Movie Recommendation: Comparison of Dialog Strategies (Hayato Mori et al)
千葉先生。対話による映画の推薦システム。ユーザの見たい映画に関する情報（主演、監督など）を提供するために、システムがあらかじめ決められた情報を決められた順番に提示する場合と（システム主導）、対話を通じてユーザが聞きたい情報をその都度指定する場合（ユーザ主導）を比較。主観評価の結果、「簡単」かどうかについてはシステム主導が有利だったが、その他の項目（使いたくなるか等）についてはユーザ主導の方が高い評価。

Response Selection of Interview-based Dialog System based on User Focus and Semantic Orientation (Shunsuke Tada et al)
多田君。システムがユーザにインタビューする音声対話システムで、ユーザの発話に含まれるキーワードについてシステムが突っ込んだ質問ができるようにする。このときに、キーワードについてユーザがどのような感情を持っているか（ポジティブまたはネガティブ）によって、システムの質問の仕方を変える。キーワードの推定はCRF。ユーザ発話の感情推定結果から、システムが次にどのような質問をすべきか（オープン質問、キーワードについての質問（中立・ポジティブ・ネガティブ）を推定する。キーワード抽出の精度は40%程度。質問タイプの推定精度は8割以上。

Development and Evaluation of Julius-Compatible Interface for Kaldi ASR (Yusuke Yamada et al)
山田君。Kaldiのデコーダに皮をかぶせてJuliusのモジュールモードと互換性を持たせた。インプリメントはC++ with Qt。Kaldiで認識するとJulius付属のDNN-HMMよりも高性能。

Voice Conversion from Arbitrary Speakers Based on Deep Neural Networks with Adversarial Learning (Sou Miyamoto et al)
宮本君。声質変換にいま流行のGANを使ってみた。声質変換の品質を上げるには分散補償が必須だが、まじめに分散補償をするには発話の全情報が必要なのでリアルタイムにならない。そこでGANを使うと分散が勝手に補償されないかな～と思ったがそこまでではなかった。

Evaluation of Nonlinear Tempo Modification Methods based on Sinusoidal Modeling (Kosuke Nakamura et al)
中村君。以前からやっているテンポ変換手法の評価。正弦波モデルを使って、各楽器音の構造を崩さないように音を伸び縮みさせる。正弦波で表現できない部分を残差で表現する方法を以前提案してみたが、比較評価してみると残差の利用は性能を向上させない。

A Study of 2D Photo-Realistic Facial Animation Generation Using 3D Facial Feature Points and Depep Neural Networks (Kazuki Sato et al)
テキストからの顔動画像生成。以前はピクセルベースで生成していたが、今回は顔の3Dモデルの特徴点座標とモデル上のテクスチャを推定することで2次元顔画像を生成する。学習のための顔特徴点とテクスチャの取得はKinectを利用。ほどほどの結果だが、口の動きが音声にシンクロしていない。

An AFK-SVD Sparse Representation Approaches for Speech SIgnal Processing (Fenglian Li et al)
No Show。

次のセッションは発表者も座長もいない。しばらくしてから座長は来たのだが、発表者は・・・？もしかしてNo Sessionかと思ったが、時間ぎりぎりに人がたくさんやってくる。準備に時間がかかり、15分遅れでスタート。

Session B03: Multimedia Security and Its Applications

A Survey of Reversible Data Hiding Schemes Based on Two-dimensional Histogram Modification (Chin-Feng Lee et al)
サーベイ発表なんだが発表してるのはどう見ても女子学生。内容は画像可逆電子透かしの紹介。2次元ヒストグラムに基づく方法を説明したが、時間が短いのでちょっと無理がある。同方法を使った4種類の手法について、埋め込み容量と画像劣化を比較評価。

Steganographic Image Hiding Schemes Based on Edge Detection (Chin-Feng Lee et al)
人間の目は変化の大きい部分に起きた微小な変化に鈍感なので、画像のエッジ部分にデータを埋めれば品質を下げないのではないかという話だが、よくある話のような気がするのは私だけか。埋め込み手法はLSB置換だが、LSB置換で画像の変化率に応じて埋め込み強度を調整する話ってずいぶん前に参照した気がする・・・と思ってよく聞いていたら従来法のサーベイだったようだ。

A New Data Hiding Strategy Based on Pixel-Value-Differencing Method (Hui-Shih Leng)
いきなり手法の説明から入ったのでついていくのが難しかったが、2つのピクセル値の差に対してQIMみたいな手法で情報を埋める方法らしい。細かい手法はよくわからない。

Data Hiding Scheme Based on Regular Octagon Shaped Shells (Hui-Shih Leng)
同じ人。従来法の説明から入っているが、何の目的で何をしてるのかの説明が一言もないので理解が難しい。去年ICSIPで聞いた、あるピクセルとその近傍の値の組み合わせに情報を隠す方法の説明をしているらしい。近傍の値の組み合わせが、六角形か八角形かなどの変種がある。提案法は、6×6のマトリクスの角を落とした八角形の組み合わせに情報を5ビット載せる(?)。

A Web Page Watermarking Method using Hybrid Watermark Hiding Strategy (Chun-Hsiu Yeh et al)
HTMLに透かし情報を埋める従来法として、タグの大文字小文字、引用符、アトリビュートの順番、空白文字の表現方法などに情報を埋める手法が提案されている。提案法としては、埋め込み情報をハミング符号で符号化した後、複数の方法でHTMLに埋め込む。抽出の時には複数の方法で抽出した情報の間で多数決を取った後、ハミング復号する。どれかのHTMLの属性を変更する攻撃を受けても、冗長度が高いので高い確率で復号できる。

A Study of the Multi-Organization Integrated Electronic Attendance System (Xi-Qing Liang et al)
台南市での統合電子勤怠管理システム。WebITRというのを使いたいが台南市の実態に合わないので、それに合わせたいという話らしい。台南市の各部署の勤務時間とか給与体系、残業規制などの話があって、研究発表と言うより開発レポート。こういう開発ってSIerで日常的にやってるんじゃないのかなあ。

Integrated Health Check Report Analysis and Tracking Platform (Tzu-Chuen Lu et al)
同じ人が続けて発表。一般人向けの健康診断結果を統合的に管理・分析・追跡するシステムを開発した話らしい。個人向けに診断結果と異常の説明、アドバイスなどを行う。

An Independence Mechanism Design for the Software Defined Device (Ling-Hsiu Chen et al)
この発表はこのセッションのプログラムにない（あとから追加されたらしい）。次の発表と同じ人の発表。IoTみたいなデバイスの開発用にグラフィカルなプログラミング環境を作ったという話らしい。ロボットを制御するでもビデオを流していた。

A Content Analysis of Mobile Learning on Constructivism Theory (Ling-Hsiu Chen et al)
No Show。前の発表と入れ替えたということか？

このセッションでは座長が質疑応答を一切やらないというスタイル。こういうのはアリなのか？

aitoの日記： IIH-MSP2017＠松江　１日目 0

日記 by aito 2017年08月13日 22時36分

2017/08/13

Keynote Speech I
Cryo-ET Data Processing and Bio-Macromolecule 3-D Reconstruction
Zhiyong Liu
The Institute of Computing Technology, CAS
クライオ電子顕微鏡による高分子構造の分析。
・最初に高分子分析のさまざまな話。X線結晶分析との違いなど。
・クライオ電子トモグラフィの原理。原理自体は普通のトモグラフィと同じ。
　3次元構造を2次元に射影するプロセス（光線方向への線積分）を行列の積で表して解く
・問題点
低いSNR
Missing wedge問題（すべての角度から電子線の照射ができず、死角ができる）
傾いている画像のアライメント問題
射影の際の誤差（電子が直進しないなど）
データ量が多い（100GB～数TB）
・Carvilinear Model
直進しない電子のモデル化
・複数画像のアライメント問題
マーカを使う：MarkerAuto
マーカを使わない：Atomalign
特徴点を使って複数画像間のアフィン変換を求める
・3次元復元ソフトウェア：AuTom
・Missing Wedge問題への対応
1方向だけでなく多方向から観測する(Multi-Tilt Approach)
圧縮センシングを使う
・アーティファクトかどうかの識別 ICON Test
・並列処理による高速化（スパコン天河２利用）
前半の話はCTの話だったので、X線CTや超音波CTによる生体計測での問題と何が違うのか？という質問をしてみたが、電子を使うこと（直進しない）、観測対象を通過する電子が少ないためにSN比が悪いことなどがこの分野に独特であるとのこと。

Session A01: Information Hiding and its Criteria

Simulation of Long-distance Aerial Transmission for Robust Audio Data Hiding (Akira Nishimura)
西村先生。防災無線のための音響データハイディング（のシミュレーション）。実環境をどうシミュレートするかも論文の主眼であるらしい。ホーンスピーカの特性をIIRバンドパスフィルタによって模擬し、空気による吸収をFIRローパスフィルタで模擬する。建物による反射は人工的なインパルス応答をたたみ込む。ドップラー効果やAD/DAのミスマッチもモデル化するところが細かくて西村先生らしい。SN比は-5dBあたりを想定。実験したハイディング法はエコー拡散法（インパルス応答として、時間対称で因果的でないやつも試した）。因果的でない方法は片方向のインパルス応答よりもBERが低い。

Digital Watermarking Scheme Based on Machine Learning for the IHC Evaluation Criterion (Ryo Sakuma et al)
岩村研。機械学習を使った画像データハイディング。あるピクセルの8近傍から中心ピクセルを予測するモデル(SVR)を学習し、予測値に対してピクセル値を増減することで情報を埋める。既存の方法はトリミングなどに対して脆弱なので、元の画像にマーカ（縦横の線）を仕込んで埋め込み位置がわかるようにする。回転やスケーリングには対応できない。

SIFT Feature-based Watermarking Method Aimed at Achieving IHC Ver. 5 (Masaki Kawamura et al)
川村先生。LDPCで符号化した情報を、画像のSIFT特徴点の周りに埋め込む。SIFTを使うので、スケーリングや回転に頑健に抽出ができる。SIFTで検出した特徴量の周辺のピクセルのDCT係数にQIMで情報埋め込む。回転に対応するために、埋め込み情報に「チェックビット（すべて1のビット列）」を仕込んでおき、復元の時にはSIFT周辺のピクセルから情報を取り出すが、チェックビットを見れば復元がどのくらいうまくいってるらしいかがわかる（うまく抽出できていれば、チェックビットはすべて1になる）。複数の特徴点に同じ情報を埋めておき、チェックビットのエラー率で重みをつけた多数決によって情報を復元する。

Data Hiding for Text Document in PDF File (Minoru Kuribayashi et al)
栗林先生。PDFへのデータ埋め込み。PDFの単語間隔を操作することで情報を埋める。まず単語間隔の大きさをベクトルとして表し、秘密鍵に基づいて順番をシャッフルする。次にDM-QIMで間隔を操作し、順番を戻してPDFを再作成する。文字だけのPDF文書に対して1.4kbit/pageぐらい。

Tally-based Audio Watermarking (Kotaro Sonoda et al)
薗田先生。複数の信号をもちよって加算することによって復号できる音響電子透かし。埋め込むビットを秘密分散によって複数の記述に分ける。具体的には、PN系列を使ったスペクトル拡散型電子透かしで、各記述の拡散系列を加えると実際に埋め込みに使った拡散系列が得られるようにしておく。これによって複数の音響系列を加えただけで抽出ができるようになる。

A Steganography Algorithm Based on MP3 Linbits Bit of Huffman Codeword (Ru Zheng et al)
No Show。

Session A03: Application of Image Encoding and Rendering

Image Segmentation for Lung Lesions using Ant Colony Optimization Classifier in Chest CT (Chii-Jen Chen)
No Show。

Auto-Recovery from Photo QR Code (Shang-Kuan Chen)
画像QRコード（QRコードの内側に画像が表示されてるやつ）の話。スライドは青地に青い字でフォントは小さく図はほとんどないという最悪の作り。しゃべっている人は座長なのだが、訥々とした語りで何言ってんだかわからない。話としては、画像QRコードが与えられたときに、その元になった画像を復元するという話らしい。提案アルゴリズムの話は全く何言ってるのかわからなかった。

Using Color Converting to Hide Image Information (Wen-Pinn Fang et al)
明るい青のグラデーション背景に白い文字という最悪を超えた配色。私は最前列にいるのにスライドに何が書いてあるのかわからなかった。発表者は何を思ったか途中でホワイトボードを使って説明を始めたが、前方はプロジェクタを使うため暗くて、ホワイトボードに何書いているのか全然見えない。英語も何言ってるか全くわからず、ある意味パーフェクトな発表。内容は画像の色空間に情報を埋めるという話のようだが、全く判然としない。

A Novel Visible Watermarking Scheme Based on Distance Transform (Guo-Jian Chou et al)
この発表は何言ってるかわかる。可視電子透かしの話。ホスト画像に透かし用の二値画像を重畳するが、ホスト画像の重要な部分にかかるように重畳するにはどうするかという話らしい。ホスト画像のSaliencyを計算して、Saliencyが大きく、かつ透かし画像がエッジに近いところの重畳量を増やす。

Using Digital Hiding to Revitalize Traditional Chinese Proverb (Wen-Pinn Fang et al.)
2つ前の人が再び発表。今回のスライドは見やすい。英語は何言ってるかわからない。
デジタルアーカイブの話の次に、中国のことわざ「樹が倒れたら猿が逃げる」の話があり、その次がGIFフォーマットの話で、次のスライドがProposed Method。スライドにはブロック図があるが、すべてのブロックが白い箱。次のスライドはResultだが何のことなのか全くわからず、またもやホワイトボードで説明を始める。GIFのカラーパレットの順番に情報を埋める話らしい。それが中国のことわざと何の関係が？謎は深まるばかりだ。

Session A05: Recent Advances in Information Hiding and Signal Processing for Audio and Speech Signals

Towards an Interrogation Speech Manipulation Detection Method using Speech Fingerprinting (Shinnya Takahashi et al)
近藤研。警察での取り調べの録音物が改ざんされたかどうかを音響指紋で調べるという研究。録音したときに音響指紋を暗号化して音声に埋め込み、裁判所側では音声から抽出した音響指紋と透かしから抽出した音響指紋を比較して改ざんがあったかどうか検証する。音響指紋としては単なるLSP係数を使っているようだ。「単なる暗号化に比べて何がよいのか？」という質問に対してしどろもどろな感じだった。

Detection of Singing Mistakes from Singing Voice (Isao Miyagawa et al)
歌唱音声から誤りを検出する宮川君の研究。標準音声と歌唱音声のMFCCをDPマッチングで対応付け、線形変換によって歌唱音声を標準音声に近づけた後、閾値によって歌唱誤りを検出する。

A Study of Audio Watermarking Method Using Non-negative Matrix Factorization for a Duet of Different Instruments (Harumi Murata et al)
村田先生のいつものやつ。今回は異なる２楽器の演奏に対する電子透かし。NMFで信号を分解する際に、2楽器（ピアノとクラリネット）の基底を別々に持っておいて、それぞれの学期ごとのアクティベーションを計算した後、それぞれの楽器のアクティベーションに情報を埋める（基音のアクティベーションが偶数か奇数かを操作する）。PEAQは4ぐらいで比較的良い。

A Wind Noise Detection Algorithm for Monitoring Infrasound Using Smartphone as a Sensor Device (Ryouichi Nishimura et al)
西村さん。超低周波の観測のために風雑音を検出する。
超低周波モニタリングのために国際的なネットワークがあって50以上の観測点がある（核実験の検出のため？）。観測点の機器を新たに設置するのは大変なので、スマホを観測機器の代わりにしたいが、風雑音の影響を強く受ける。スマホでできる簡便な方法として、マイクと圧力センサの両方を利用する。音声の包絡をヒルベルト変換で求め、包絡の最大値が時間的に突出しているところを風雑音領域として検出する（異常検出の考え方に基づく）。

Study on Speech Represetation based on Spikegram for Speech Fingerprints (Dung Kim et al)
鵜木研。このまえEMM研で聞いた。ガボールとガンマトーン基底信号を使ってMatching Persuitで入力音声をスパース表現する。両者を比べるとガンマトーンの方が分析合成音声の品質が高い。得られたスパース表現からLocal Binary Pattern (LBP)を作る。

Embedding Multiple Audio Audio Data Using Information Misreading Technique (Naofumi Aoki)
No Show。

aitoの日記： 5/22-23 EMM&IT研究会＠米沢まとめ 0

日記 by aito 2017年05月23日 21時31分

5/22-23 EMM&IT研究会＠米沢

5/22（月）

(1) JavaScript難読化手法jjencodeを用いたプログラムへのデータ埋め込みの一方法（京大）
日置先生。JavaScriptを難読化し、その難読化過程に情報を埋める。難読化ツールとしてjjencodeを使う。jjencodeはJavaScriptのコードを非英数字のみに変換する方法。難読化の過程に冗長性があるので、そこに情報を埋める。jjencodeの仕組みの解説があったが、これはトリッキーだ。情報の埋め込みは、文字生成の方法（型変換を使う、文字リテラル（8進数、16進数、ユニコード）、変数を使う）の冗長性を利用する。この方法により、1文字が24倍ぐらいになる。データ埋め込み率2%（スクリプトの2%程度を埋め込みに使える）。

(2)RANSACアルゴリズムを用いた特徴点マッチングに基づく電子透かし検出法（電通大）
画像電子透かしの透かし埋め込み領域抽出のための特徴点検出。幾何変換攻撃への耐性を上げるのが目的。SIFTで原画像と埋め込み画像から特徴点を抽出し、RANSACで対応点を求め、そこから埋め込み画像を現画像に戻す射影変換を推定して画像をもとに戻す。対応点検出と画像補正としてはスタンダードな方法に見える。埋め込みはDCT係数だが、結構荒っぽい方法に見える。

(3) PDFファイルの内部構造を考慮した大容量電子透かし法（岡山大）
栗山先生のところ。単語を構成する文字間の間隔系列をベクトルだと思って信号処理的な手法により情報を埋める。ベクトルをランダムに置換し（置換パターンが鍵になる）、置換後のベクトルをDCTして周波数領域に情報を埋め込む。埋め込みはディザQIM。

(4) 組織内からの情報漏洩対策のための電子指紋システムの提案（岡山大）
これも栗山先生のところ。組織の階層に応じて文書のアクセス権制御ができる電子指紋（を使った文書暗号・復号システム）の提案。よくわからなかったが、アクセス条件が設定できる（アクセス権がある場合には、利用者は自分の鍵で文書が復号でき、復号された文書には自分の電子指紋が残る）ところが新しいのかな。

(5) An Application of Universal FV Codes to Source Coding Allowing Errors (和歌山大)
葛岡先生。この時間は外に出ていたので聞けなかった。

(6) 非調和フーリエ級数（Anharmonic Fourier Series)の紹介 (ディスプレイ研)
枕がプラズマディスプレイの話だったが(筆者はNHKでプラズマディスプレイを開発していたそうだ)中身は級数展開の話。AHFSは f(x)=sum from I=1 to infinity b_i sin(lambda_i x) の形で書けて、lambdaは
lambda cos(lambda)=-b sin(lambda)
を満たすような定数。拡散方程式が出てくるのだが、よく理解できなかった。

(7) ブロック暗号Fewの高階差分特性 (航空自衛隊)
東京理科大との共同研究らしい。2014年に提案されたブロック暗号Fewの高階差分耐性について調べた。中身はよく理解できない。

(8)知的情報処理の最前線―スパースモデリング vs 深層学習―
枕は機械学習によるカンニング検出の話。
・世の中では何が起きているのか？「逆問題の解決」
y=f(x) において、yがわかったときに f または x を知りたい
f を知る問題：ディープラーニング
x を知る問題：圧縮センシング
・ディープラーニング
シグモイドとReLUの問題
確率勾配法、Adagradなどの最適化法
・応用例
肝臓の形状推定など
・スパースモデリング、圧縮センシング
例：MRI画像の復元
・データをスパースにする学習：辞書学習
・LASSOの話
・ADMM法　2つ以上のコスト関数の和の最小化
　拡張ラグランジュ法を使う

5/23（火）

(9) 録音信号に含まれる電源周波数信号の除去および偽装による反法科学手法とそれらの検出（東京情報大）
西村先生。録音に含まれる電源周波数(ENF)変動から録音時刻・場所を同定する手法の話だが、その消去・偽装と偽装検出の話。電源周波数をノッチフィルタで除去してから別なENFを加算する偽装法が開発されている。これに対し、電源信号の振幅と位相を推定してそれを元信号から引くという方法を提案。そちらの方がENF除去がわかりにくい。
新しい偽装検出法として、ENF自体を調べる方法が提案されているが、新たに提案した偽装が検出できない。そこで、信号からENFを除去して、その周辺の統計量を調べる方法を提案。元のENF除去処理の窓長がわかっていれば高性能。

(10) 自転車用拡張音響現実の環境音フィードバックにおける風雑音対策の検討（山形大）
近藤研。自転車のための音響VRによるナビゲーション。しかし耳をふさぐことはできないので、ヒアスルーイヤフォンを使うことを検討。ヒアスルーイヤフォンはイヤフォンにマイクがついていて外部音を聞かせる（補聴器と同じ）システム。しかしヒアスルーイヤフォンは風雑音を拾うので、これを信号処理で低減する。今回はこれを実際の利用状況に近い状態で評価。信号処理として、SS,ウィナーフィルタ、反復ウィナーフィルタおよひHPFを検討。これらの中では反復ウィナーフィルタが有効で、風防とHPFの有無によらず了解度が高い。それ以外の方法では風防・HPFともに有効。遅延は200ms程度。音声了解度は骨伝導イヤフォンより高い。

(11) 音声フィンガープリントと電子透かしを用いた音声改ざん検出法の一検討（山形大）
近藤研。取り調べ中の音声が改ざんされないように、音声にフィンガープリントを透かしとして埋め込む。フィンガープリントとして量子化LSPを利用。埋め込みはスペクトル拡散。改ざん検出としての有効性がよくわからなかった。

ここで抜けたのでこの後の講演は聞けなかった。

aitoの日記： 2017/3/7 EMM研究会＠宮古島　2日目 0

日記 by aito 2017年03月07日 15時56分

3月7日(火) 午前? 一般座長：薗田光太郎（長崎大）　09:25 - 10:40
(13) 09:25-09:50
PDCAサイクルに基づく健康メディアに対するセルフケア法の提案
○千種康民・山崎祥行（東京工科大）
個人の健康管理をPDCAサイクルの手法でやりましょうと言う提案。事例紹介などもあったのだが、PDCAサイクルのおかげなのかどうか判然としない。

(14) 09:50-10:15
バイノーラル音響コンテンツの臨場感向上に向けたバイオフィードバック応用について
○長嶋洋一（静岡文化芸術大）
枕は伊良部島のマルヨシ食堂でジャンボカツカレーを食った話。食いすぎて気持ち悪かった話から、内観とバイオフィードバックの話。きんでんセンサーとジェスチャー認識によるリハビリシステム。
大学で学生が制作したメディアアートの紹介。ダミーヘッドの口にLeapMotionをつけて、前にある手の動きから母音をフォルマント合成して、それをダミーヘッドの周りにあるスピーカーで再生。
最終的には、音情報をバイノーラル提示したときに、そのときの情動を脳波などで観測し、それをバイノーラル音にフィードバックする（たとえば情動が大きくなる方向に）ということらしい。

(15) 10:15-10:40
非負値行列因子分解を用いた音楽電子透かし法の音高推定の改善 [変更あり]
○村田晴美（中京大）・荻原昭夫（近畿大）
いつもの。二重奏に対するNMFを使った電子透かしについて検討していたが、抽出時に埋め込み時の音高推定情報が必要。そこで、音高推定を改善することにより、情報抽出を改善する。具体的には、従来は発音時刻順に情報を埋めていたが、埋め込み操作によって信号が変化することによって発音時刻が変わることがあるので、発音時刻ではなく音高が低い順に埋め込みを行う。

10:40-10:50 休憩　（ 10分）
3月7日(火) 午前? 一般座長: 伊藤彰則（東北大） 10:50 - 11:40
(16) 10:50-11:40
［招待講演］球状マイクロホンアレイを用いたバイノーラル3次元音空間創成手法
○坂本修一・サルバドルセザル・トレビーニョホルヘ・鈴木陽一（東北大）
・音情報の特徴について。「雰囲気」などの再現には音の空間的情報が重要。
・音空間の収音と再生法。
再生：ステレオフォニック、聴取点音圧制御、音場合成
収音：サラウンド収音、アンビソニックマイクロフォン
・球状マイクロフォンアレイを使ったバイノーラル音空間収音再生
HRTFモデル化法：各マイクロフォン入力に重み付けして加算することでHRTFを模擬する
収音信号モデル化法：HRTFの測定位置に配置したバーチャル音源おｎ駆動信号をマイクロフォン入力から推定する
どちらの手法がよいかはマイクロフォン数とHRTF測定点数の大小関係によって決まる
・SENZIシステム
・水平面での距離によるHRTFへの影響のモデル化

11:40-13:00 昼食　（ 80分） 3月7日(火) 午後? 一般座長: 岩村惠市（東京理科大） 13:00 - 14:15
(17) 13:00-13:25
画像入力型情報検索システムにおける利用者の位置履歴の保護
○藤井宏次朗・中村和晃・新田直子・馬場口　登（阪大）
画像による場所の情報の検索（スポット検索）タスクで、サーバ側で検索結果のスポットがわからないようにする。具体的には、画像検索の特徴量をクライアント側で線形部分空間に射影し、それをサーバに送ることで意図的に認識精度を落とし、サーバで認識された複数候補に対してクライアント側で再認識することで結果を確定する。また、複数回の検索結果からも現在位置が推測されにくいように認識結果候補を調整する。この方法では大まかな位置の推測されやすさと詳細な位置の推測されやすさにトレードオフがあるようだ。

(18) 13:25-13:50
幾何学的錯視による疑似力覚の付与を目指したテクスチャ提示方式に関する一検討
○小野里勇希・宮本龍介（明大）
クッションなどを押したときに、プロジェクションマッピングによって物体が凹んだ画像を物体に投影し、物体が凹んだ感覚を想起させる。質疑でだいぶ批判されていた。

(19) 13:50-14:15
共通鍵暗号とプログラムのハッシュ値によるファイルアクセス制御を用いた機密情報保護
○市川　実・宇田隆哉（東京工科大）
マルウェアによるファイルアクセスを防ぐために、OSを仮想マシン上で稼働させ、プログラム単位でファイルアクセス権を設定する。またファイルをすべて暗号化し、仮想マシンが暗号化・復号化を行う。

aitoの日記： 2017/3/6 EMM研究会@宮古島　1日目 0

日記 by aito 2017年03月07日 15時55分

(1) 14:30-15:30
［ポスター講演］KAZE特徴量を導入した電子透かし法の検討
○深田有花・川村正樹（山口大）
KAZEで特徴点を求め、特徴点の周りに（特徴点によって決まるスケールで）透かしを埋め込む。透かしの中にマーカ情報を入れ、取り出しがどの程度うまく行っているかを推定し、最終的に複数の特徴点から取り出した透かしで多数決を行う。SIFTより（スケーリング変換以外は）頑健。

(2) 14:30-15:30
［ポスター講演］多元LDPC符号を用いた電子透かし法とJPEG圧縮に対する評価
○佐伯豊彦・野崎隆之・川村正樹（山口大）
GF(2^m)を利用するLDPC。従来研究ではmが大きいときは性能が高くなったので、JPEGへの電子透かしに応用してみたが、GF(2)の場合よりよくならなかった。

(3) 14:30-15:30
［ポスター講演］3Dプリンター造形物への情報埋め込みと近赤外線反射像による読み出し技術
○中村耕介・鈴木雅洋・高沢渓吾（神奈川工科大）・高嶋洋一（NTT）・鳥井秀幸・上平員丈（神奈川工科大）
一連の3Dプリント物への情報埋め込み。今回は黄色い本体に白いマーカを埋め込み、近赤外光を当てて近赤外カメラで検出。定量的評価はない。

(4) 14:30-15:30
［ポスター講演］画像特徴量に基づく同期回復を用いたDCT-OFDM型電子透かし方式
○市岡由偉・小嶋徹也（東京高専）
AKAZEで特徴点を数個求め、それを埋め込みブロック境界として画像をブロック分割して情報を埋め込む。埋め込みはDCTの低周波成分で、複数の境界で埋め込むときに異なる風波数帯域に情報を埋める。取り出し時には、検出した特徴点をブロック境界の候補として分割してみて、うまく取り出せたものを利用する。

(5) 14:30-15:30
［ポスター講演］継続認証実現に向けた歩行中の心拍データ系列を用いた個人認証
○吉田崇晃（阪大）・河野和宏（関西大）・馬場口　登（阪大）
スマートバンドから得られる心拍データを使った個人認証。20分ぐらい歩いたときの心拍数の統計量を使う。EERは17%ぐらいで低くはないが、ほかのモダリティと併用することを検討しているそうだ。運動が同じでないと認証は難しいだろうなあ。

15:30-15:40 休憩　（ 10分） 3月6日(月) 午後? ポスターセッション（後半）座長: 岩田基（阪府大） 15:40 - 16:40
(6) 15:40-16:40
［ポスター講演］攻撃耐性向上のためのブロックスクランブル暗号化法とその鍵管理
○小笠原剛史・今泉祥子（千葉大）・貴家仁志（首都大東京）
ブロックスクランブル暗号化で、複数の画像を同時にスクランブルすることでスクランブル強度を高める。

(7) 15:40-16:40
［ポスター講演］ヘッドマウントディスプレイを用いたARによる電子書籍インタフェイスの開発
○中原　匠・日置尋久（京大）
紙のノートにマーカを書いておいて、その上にARで電子書籍のコンテンツを重畳したインタフェース。紙を物理的にめくることで電子書籍のページがめくれる。ページ数が多い書籍を使うためには物理的なノートも厚くなければならないのが欠点。

(8) 15:40-16:40
［ポスター講演］相対テキスト長パターンに基づくPDF文書に対する電子透かし法
○岩本拓也・川村正樹（山口大）
PDFへのステガノグラフィ。文字ブロック3つの長さの大小関係の組み合わせのパターンに情報を埋める。情報を埋め込む場合には、すでにある文字ブロックを分割することで対応。

(9) 15:40-16:40
［ポスター講演］音割符を用いた音響電子透かしシステムの一検討
○野口　洲・薗田光太郎・喜安千弥（長崎大）
カバー信号と、それに組み合わせる別な信号（タリー信号）を用意し、２つを混ぜた信号に情報を埋めた上で、カバー信号だけを取り出して送信する。タリー信号がないと情報が読み出せないので、タリー信号を科技のように使える。埋め込み手法はエコー拡散。しかし実験結果からは、適当な信号をタリーとして使ってもそこそこ情報が抽出できてしまう。

(10) 15:40-16:40
［ポスター講演］完全相補系列系を用いた画像電子透かしにおけるホスト信号近似法の性質について
○加藤　翔・小嶋徹也（東京高専）
16:40-17:00 休憩　（ 20分）
完全相補系列(CCC)系の信号の組み合わせだけから画像を生成するという手法（1月のEMM研で聞いた）。今回は、CCCの長さと近似画像のPSNR、透かしの検出精度(BER)を比較した。長いCCCの方が、近似精度は悪いがBERは小さい。

3月6日(月) 午後? 一般座長: 今泉祥子（千葉大） 17:00 - 17:50
(11) 17:00-17:25
4K用カメラ用フォーカスアシストの開発～暗照明条件でも高ノイズ耐性を実現～
○合志清一（工学院大）
4kカメラの場合、マニュアルでフォーカスをあわせることが困難。しかし演出としてフォーカス合わせを行うのでオートフォーカスをつけることができない。またアンシャープマスクなどの信号処理では雑音が出やすい。提案法では元画像のエッジ関数に非線形関数を作用させてから元画像に加える。従来法と比較して、暗い部分の雑音がより抑えられている。

(12) 17:25-17:50
多感覚コンテンツの高次感性知覚に音情報から生成した振動情報が及ぼす増強効果 [変更あり]
○崔　正烈・柳生寛幸・坂本修一・行場次朗・鈴木陽一（東北大）
VRコンテンツを前景（迫真性）と背景（臨場感）に基づいて評価する。画像・音声に振動を加えて迫真性と臨場感を制御するが、実際の「場」について振動を観測することは難しいので、観測された音情報から振動を生成して観測者に提示する。観測者はスライダーで連続的に迫真性または臨場感を評価した。その結果、音響信号から生成した振動はオリジナルの振動を加えたものと同程度の臨場感を与えることがわかった。迫真性はオリジナルよりも高くなる。また、振動強度が大きくなると、迫真性はいったん大きくなった後で下がる傾向にある。