パスワードを忘れた? アカウント作成

aitoさんのトモダチの日記みんなの日記も見てね。 ログインするとコメント表示数や表示方法をカスタマイズできるのを知っていますか?

13380075 journal
日記

aitoの日記: IIH-MSP2017@松江 3日目

日記 by aito

2017/08/15

Session C01: Massive Image/Video Compression and Transmission for Emerging Networks
このセッションでは座長が来られなかったのでPan先生が座長をやる。

Extraction of EEG Components Based on Time-frequency Blind Source Separation (Xue-Ying Zhang et al)
No Show.

An Algorithm for Asymmetric Clipping Detection based on Parameter Optimization (Jiwei Zhang et al)
Niu先生が発表。「非対称クリッピング」というのは単に写真の(中心でない)部分を切り出すことのようだ。この研究では、カメラのパラメータを推定することで、対象の写真が撮影された画像の一部を切り出したものかどうかを推定する。途中の計算はよくわからなかったが、principal point(消失点みたいなもの?)を求め、それが画像中心から外れていれば切り出しを行ったと判断する。同様に消失点を使った方法も紹介されたのでprincipal pointは消失点ではないのかなあ。

Automatic Facial Age Estimate based on Convolution Neural Network (Jiancheng Zou et al)
No Show

The Application of Eye Tracking in Education (Yuyang Sun et al)
No Show

Adaptive Multiple Description Depth Image Coding Based on Wavelet Sub-band Coefficients (Jingyuan Ma et al)
No Show

Robust Unseen Visible Watermarking for Depth Map Protection in 3D Video Classification (Zhaotian Li et al)
2次元映像から深度マップを抽出し、深度マップから3次元映像をレンダリングする。深度マップをUVW (Unseen Visible Watermark)という方法で2次元映像に埋め込む。オリジナルのUVWを頑健にしたとのことだが、UVWを知らないので何が違うのかわからん。ともかくDCT領域に埋め込むらしい。深度マップを保護するために3次元映像に埋め込むとのことだが、「単に深度マップを暗号化して個別に送るのと比べて何がいいのか?」と聞いてみたところ、要領を得なかった。Unseen Visible Watermarkというのは、Visible Watermarkみたいに隅っこにマークが出るのだが、実は裏に別なデータが仕込まれているものらしい。

Session C02: Recent Advance in Multimedia Signal Processing Techniques
このセッションはC01の後のはずだったのだが、ふと気がつくと別な部屋でやっていた。そんなんありか。

Boosted HOG Features and Its Application on Object Movement Detection (Junzo Watada et al)

Training method for a Feed Forward Neural Network (Haydee Melo et al)

Fast Intra Mode Decision Algorithm for 3D-HEVC Transcoding (XuiJun Feng)

SURF Algorithm-based Panoramic Image Mosaic Application (Junzo Watada et al)
これの途中で部屋に入った。

Automatic People Conter in Store Using a Low-Cost IoT Sensing Platform (Supatta Viriyavisuthisakul et al)
山崎先生のところの人。カメラを使ってコンビニへの客の出入りを自動計測する。本体はラズパイでOpenCV利用。学生の演習としては面白いが、客の出入りだけなら赤外線センサで十分なんじゃないのか。

GUI of GMS Simulation Tool Using Fuzzy Methods (Yeonchan Lee et al)
第2著者のChoi先生が発表。GMSはGenerator Maintainance Systemで、発電所の発電機のメンテナンス計画をどう立てるかという話。電力会社はできるだけメンテナンスを省いて稼働率を上げたいし、政府はきちんとメンテナンスをさせて安定性を上げたいなど、互いに矛盾する評価基準がある。整数計画問題なので、通常遺伝的アルゴリズムなどによって解く。この発表では、ファジィ理論を使って各種指標のメンバーシップ関数を定義し、互いに適当に妥協する解を求めようとしている。GUIも作成しているが、この手のものを必要としているのは電力会社の中枢だけなので、研究としてGUIを作ったりする意味があるのか疑問。

13379922 journal
日記

aitoの日記: IIH-MSP2017@松江 2日目

日記 by aito

2017/08/14

Keynote Speech II
Flexible, Personalized and Expressive Speech Synthesis Based on Statistical Approaches
Prof. Takashi Nose
Tohoku University, Japan
能勢先生による音声合成技術のレクチャー。
・音声合成のさまざまなアプリケーション。音声対話システム、オーディオブック、歌声合成、ゲームなど
・TTSのさまざまな種類。単語置換、ダイフォン、ユニット選択、統計ベース
・統計的音声合成の概要
・音声のパラメータ化(音声→スペクトル+F0→音声)
・HMMとDNNによる合成の枠組み
・合成音声の個人化:平均声と話者適応
 HMMとDNNそれぞれの話者適応手法
・スタイル制御
 HMM:スタイルベクトルによる制御
・特定の単語を強調する:F0制御
・柔軟な音声合成:テーラーメード音声合成
 各単語のF0を手動で変更する
・各種アプリケーションは時間の都合で名前だけ。
質疑応答は結構活発で、「特定の歌手の歌声が合成できるのか?」などの質問があった。

Session B01: Advances in Speech and Language Processing

Dialog-based Interactive Movie Recommendation: Comparison of Dialog Strategies (Hayato Mori et al)
千葉先生。対話による映画の推薦システム。ユーザの見たい映画に関する情報(主演、監督など)を提供するために、システムがあらかじめ決められた情報を決められた順番に提示する場合と(システム主導)、対話を通じてユーザが聞きたい情報をその都度指定する場合(ユーザ主導)を比較。主観評価の結果、「簡単」かどうかについてはシステム主導が有利だったが、その他の項目(使いたくなるか等)についてはユーザ主導の方が高い評価。

Response Selection of Interview-based Dialog System based on User Focus and Semantic Orientation (Shunsuke Tada et al)
多田君。システムがユーザにインタビューする音声対話システムで、ユーザの発話に含まれるキーワードについてシステムが突っ込んだ質問ができるようにする。このときに、キーワードについてユーザがどのような感情を持っているか(ポジティブまたはネガティブ)によって、システムの質問の仕方を変える。キーワードの推定はCRF。ユーザ発話の感情推定結果から、システムが次にどのような質問をすべきか(オープン質問、キーワードについての質問(中立・ポジティブ・ネガティブ)を推定する。キーワード抽出の精度は40%程度。質問タイプの推定精度は8割以上。

Development and Evaluation of Julius-Compatible Interface for Kaldi ASR (Yusuke Yamada et al)
山田君。Kaldiのデコーダに皮をかぶせてJuliusのモジュールモードと互換性を持たせた。インプリメントはC++ with Qt。Kaldiで認識するとJulius付属のDNN-HMMよりも高性能。

Voice Conversion from Arbitrary Speakers Based on Deep Neural Networks with Adversarial Learning (Sou Miyamoto et al)
宮本君。声質変換にいま流行のGANを使ってみた。声質変換の品質を上げるには分散補償が必須だが、まじめに分散補償をするには発話の全情報が必要なのでリアルタイムにならない。そこでGANを使うと分散が勝手に補償されないかな~と思ったがそこまでではなかった。

Evaluation of Nonlinear Tempo Modification Methods based on Sinusoidal Modeling (Kosuke Nakamura et al)
中村君。以前からやっているテンポ変換手法の評価。正弦波モデルを使って、各楽器音の構造を崩さないように音を伸び縮みさせる。正弦波で表現できない部分を残差で表現する方法を以前提案してみたが、比較評価してみると残差の利用は性能を向上させない。

A Study of 2D Photo-Realistic Facial Animation Generation Using 3D Facial Feature Points and Depep Neural Networks (Kazuki Sato et al)
テキストからの顔動画像生成。以前はピクセルベースで生成していたが、今回は顔の3Dモデルの特徴点座標とモデル上のテクスチャを推定することで2次元顔画像を生成する。学習のための顔特徴点とテクスチャの取得はKinectを利用。ほどほどの結果だが、口の動きが音声にシンクロしていない。

An AFK-SVD Sparse Representation Approaches for Speech SIgnal Processing (Fenglian Li et al)
No Show。

次のセッションは発表者も座長もいない。しばらくしてから座長は来たのだが、発表者は・・・?もしかしてNo Sessionかと思ったが、時間ぎりぎりに人がたくさんやってくる。準備に時間がかかり、15分遅れでスタート。

Session B03: Multimedia Security and Its Applications

A Survey of Reversible Data Hiding Schemes Based on Two-dimensional Histogram Modification (Chin-Feng Lee et al)
サーベイ発表なんだが発表してるのはどう見ても女子学生。内容は画像可逆電子透かしの紹介。2次元ヒストグラムに基づく方法を説明したが、時間が短いのでちょっと無理がある。同方法を使った4種類の手法について、埋め込み容量と画像劣化を比較評価。

Steganographic Image Hiding Schemes Based on Edge Detection (Chin-Feng Lee et al)
人間の目は変化の大きい部分に起きた微小な変化に鈍感なので、画像のエッジ部分にデータを埋めれば品質を下げないのではないかという話だが、よくある話のような気がするのは私だけか。埋め込み手法はLSB置換だが、LSB置換で画像の変化率に応じて埋め込み強度を調整する話ってずいぶん前に参照した気がする・・・と思ってよく聞いていたら従来法のサーベイだったようだ。

A New Data Hiding Strategy Based on Pixel-Value-Differencing Method (Hui-Shih Leng)
いきなり手法の説明から入ったのでついていくのが難しかったが、2つのピクセル値の差に対してQIMみたいな手法で情報を埋める方法らしい。細かい手法はよくわからない。

Data Hiding Scheme Based on Regular Octagon Shaped Shells (Hui-Shih Leng)
同じ人。従来法の説明から入っているが、何の目的で何をしてるのかの説明が一言もないので理解が難しい。去年ICSIPで聞いた、あるピクセルとその近傍の値の組み合わせに情報を隠す方法の説明をしているらしい。近傍の値の組み合わせが、六角形か八角形かなどの変種がある。提案法は、6×6のマトリクスの角を落とした八角形の組み合わせに情報を5ビット載せる(?)。

A Web Page Watermarking Method using Hybrid Watermark Hiding Strategy (Chun-Hsiu Yeh et al)
HTMLに透かし情報を埋める従来法として、タグの大文字小文字、引用符、アトリビュートの順番、空白文字の表現方法などに情報を埋める手法が提案されている。提案法としては、埋め込み情報をハミング符号で符号化した後、複数の方法でHTMLに埋め込む。抽出の時には複数の方法で抽出した情報の間で多数決を取った後、ハミング復号する。どれかのHTMLの属性を変更する攻撃を受けても、冗長度が高いので高い確率で復号できる。

A Study of the Multi-Organization Integrated Electronic Attendance System (Xi-Qing Liang et al)
台南市での統合電子勤怠管理システム。WebITRというのを使いたいが台南市の実態に合わないので、それに合わせたいという話らしい。台南市の各部署の勤務時間とか給与体系、残業規制などの話があって、研究発表と言うより開発レポート。こういう開発ってSIerで日常的にやってるんじゃないのかなあ。

Integrated Health Check Report Analysis and Tracking Platform (Tzu-Chuen Lu et al)
同じ人が続けて発表。一般人向けの健康診断結果を統合的に管理・分析・追跡するシステムを開発した話らしい。個人向けに診断結果と異常の説明、アドバイスなどを行う。

An Independence Mechanism Design for the Software Defined Device (Ling-Hsiu Chen et al)
この発表はこのセッションのプログラムにない(あとから追加されたらしい)。次の発表と同じ人の発表。IoTみたいなデバイスの開発用にグラフィカルなプログラミング環境を作ったという話らしい。ロボットを制御するでもビデオを流していた。

A Content Analysis of Mobile Learning on Constructivism Theory (Ling-Hsiu Chen et al)
No Show。 前の発表と入れ替えたということか?

このセッションでは座長が質疑応答を一切やらないというスタイル。こういうのはアリなのか?

13378876 journal
日記

aitoの日記: IIH-MSP2017@松江 1日目

日記 by aito

2017/08/13

Keynote Speech I
Cryo-ET Data Processing and Bio-Macromolecule 3-D Reconstruction
Zhiyong Liu
The Institute of Computing Technology, CAS
クライオ電子顕微鏡による高分子構造の分析。
・最初に高分子分析のさまざまな話。X線結晶分析との違いなど。
・クライオ電子トモグラフィの原理。原理自体は普通のトモグラフィと同じ。
 3次元構造を2次元に射影するプロセス(光線方向への線積分)を行列の積で表して解く
・問題点
        低いSNR
        Missing wedge問題(すべての角度から電子線の照射ができず、死角ができる)
        傾いている画像のアライメント問題
        射影の際の誤差(電子が直進しないなど)
        データ量が多い(100GB~数TB)
・Carvilinear Model
        直進しない電子のモデル化
・複数画像のアライメント問題
        マーカを使う:MarkerAuto
        マーカを使わない:Atomalign
                特徴点を使って複数画像間のアフィン変換を求める
・3次元復元ソフトウェア:AuTom
・Missing Wedge問題への対応
        1方向だけでなく多方向から観測する(Multi-Tilt Approach)
        圧縮センシングを使う
・アーティファクトかどうかの識別 ICON Test
・並列処理による高速化(スパコン天河2利用)
前半の話はCTの話だったので、X線CTや超音波CTによる生体計測での問題と何が違うのか?という質問をしてみたが、電子を使うこと(直進しない)、観測対象を通過する電子が少ないためにSN比が悪いことなどがこの分野に独特であるとのこと。

Session A01: Information Hiding and its Criteria

Simulation of Long-distance Aerial Transmission for Robust Audio Data Hiding (Akira Nishimura)
西村先生。防災無線のための音響データハイディング(のシミュレーション)。実環境をどうシミュレートするかも論文の主眼であるらしい。ホーンスピーカの特性をIIRバンドパスフィルタによって模擬し、空気による吸収をFIRローパスフィルタで模擬する。建物による反射は人工的なインパルス応答をたたみ込む。ドップラー効果やAD/DAのミスマッチもモデル化するところが細かくて西村先生らしい。SN比は-5dBあたりを想定。実験したハイディング法はエコー拡散法(インパルス応答として、時間対称で因果的でないやつも試した)。因果的でない方法は片方向のインパルス応答よりもBERが低い。

Digital Watermarking Scheme Based on Machine Learning for the IHC Evaluation Criterion (Ryo Sakuma et al)
岩村研。機械学習を使った画像データハイディング。あるピクセルの8近傍から中心ピクセルを予測するモデル(SVR)を学習し、予測値に対してピクセル値を増減することで情報を埋める。既存の方法はトリミングなどに対して脆弱なので、元の画像にマーカ(縦横の線)を仕込んで埋め込み位置がわかるようにする。回転やスケーリングには対応できない。

SIFT Feature-based Watermarking Method Aimed at Achieving IHC Ver. 5 (Masaki Kawamura et al)
川村先生。LDPCで符号化した情報を、画像のSIFT特徴点の周りに埋め込む。SIFTを使うので、スケーリングや回転に頑健に抽出ができる。SIFTで検出した特徴量の周辺のピクセルのDCT係数にQIMで情報埋め込む。回転に対応するために、埋め込み情報に「チェックビット(すべて1のビット列)」を仕込んでおき、復元の時にはSIFT周辺のピクセルから情報を取り出すが、チェックビットを見れば復元がどのくらいうまくいってるらしいかがわかる(うまく抽出できていれば、チェックビットはすべて1になる)。複数の特徴点に同じ情報を埋めておき、チェックビットのエラー率で重みをつけた多数決によって情報を復元する。

Data Hiding for Text Document in PDF File (Minoru Kuribayashi et al)
栗林先生。PDFへのデータ埋め込み。PDFの単語間隔を操作することで情報を埋める。まず単語間隔の大きさをベクトルとして表し、秘密鍵に基づいて順番をシャッフルする。次にDM-QIMで間隔を操作し、順番を戻してPDFを再作成する。文字だけのPDF文書に対して1.4kbit/pageぐらい。

Tally-based Audio Watermarking (Kotaro Sonoda et al)
薗田先生。複数の信号をもちよって加算することによって復号できる音響電子透かし。埋め込むビットを秘密分散によって複数の記述に分ける。具体的には、PN系列を使ったスペクトル拡散型電子透かしで、各記述の拡散系列を加えると実際に埋め込みに使った拡散系列が得られるようにしておく。これによって複数の音響系列を加えただけで抽出ができるようになる。

A Steganography Algorithm Based on MP3 Linbits Bit of Huffman Codeword (Ru Zheng et al)
No Show。

Session A03: Application of Image Encoding and Rendering

Image Segmentation for Lung Lesions using Ant Colony Optimization Classifier in Chest CT (Chii-Jen Chen)
No Show。

Auto-Recovery from Photo QR Code (Shang-Kuan Chen)
画像QRコード(QRコードの内側に画像が表示されてるやつ)の話。スライドは青地に青い字でフォントは小さく図はほとんどないという最悪の作り。しゃべっている人は座長なのだが、訥々とした語りで何言ってんだかわからない。話としては、画像QRコードが与えられたときに、その元になった画像を復元するという話らしい。提案アルゴリズムの話は全く何言ってるのかわからなかった。

Using Color Converting to Hide Image Information (Wen-Pinn Fang et al)
明るい青のグラデーション背景に白い文字という最悪を超えた配色。私は最前列にいるのにスライドに何が書いてあるのかわからなかった。発表者は何を思ったか途中でホワイトボードを使って説明を始めたが、前方はプロジェクタを使うため暗くて、ホワイトボードに何書いているのか全然見えない。英語も何言ってるか全くわからず、ある意味パーフェクトな発表。内容は画像の色空間に情報を埋めるという話のようだが、全く判然としない。

A Novel Visible Watermarking Scheme Based on Distance Transform (Guo-Jian Chou et al)
この発表は何言ってるかわかる。可視電子透かしの話。ホスト画像に透かし用の二値画像を重畳するが、ホスト画像の重要な部分にかかるように重畳するにはどうするかという話らしい。ホスト画像のSaliencyを計算して、Saliencyが大きく、かつ透かし画像がエッジに近いところの重畳量を増やす。

Using Digital Hiding to Revitalize Traditional Chinese Proverb (Wen-Pinn Fang et al.)
2つ前の人が再び発表。今回のスライドは見やすい。英語は何言ってるかわからない。
デジタルアーカイブの話の次に、中国のことわざ「樹が倒れたら猿が逃げる」の話があり、その次がGIFフォーマットの話で、次のスライドがProposed Method。スライドにはブロック図があるが、すべてのブロックが白い箱。次のスライドはResultだが何のことなのか全くわからず、またもやホワイトボードで説明を始める。GIFのカラーパレットの順番に情報を埋める話らしい。それが中国のことわざと何の関係が?謎は深まるばかりだ。

Session A05: Recent Advances in Information Hiding and Signal Processing for Audio and Speech Signals

Towards an Interrogation Speech Manipulation Detection Method using Speech Fingerprinting (Shinnya Takahashi et al)
近藤研。警察での取り調べの録音物が改ざんされたかどうかを音響指紋で調べるという研究。録音したときに音響指紋を暗号化して音声に埋め込み、裁判所側では音声から抽出した音響指紋と透かしから抽出した音響指紋を比較して改ざんがあったかどうか検証する。音響指紋としては単なるLSP係数を使っているようだ。「単なる暗号化に比べて何がよいのか?」という質問に対してしどろもどろな感じだった。

Detection of Singing Mistakes from Singing Voice (Isao Miyagawa et al)
歌唱音声から誤りを検出する宮川君の研究。標準音声と歌唱音声のMFCCをDPマッチングで対応付け、線形変換によって歌唱音声を標準音声に近づけた後、閾値によって歌唱誤りを検出する。

A Study of Audio Watermarking Method Using Non-negative Matrix Factorization for a Duet of Different Instruments (Harumi Murata et al)
村田先生のいつものやつ。今回は異なる2楽器の演奏に対する電子透かし。NMFで信号を分解する際に、2楽器(ピアノとクラリネット)の基底を別々に持っておいて、それぞれの学期ごとのアクティベーションを計算した後、それぞれの楽器のアクティベーションに情報を埋める(基音のアクティベーションが偶数か奇数かを操作する)。PEAQは4ぐらいで比較的良い。

A Wind Noise Detection Algorithm for Monitoring Infrasound Using Smartphone as a Sensor Device (Ryouichi Nishimura et al)
西村さん。超低周波の観測のために風雑音を検出する。
超低周波モニタリングのために国際的なネットワークがあって50以上の観測点がある(核実験の検出のため?)。観測点の機器を新たに設置するのは大変なので、スマホを観測機器の代わりにしたいが、風雑音の影響を強く受ける。スマホでできる簡便な方法として、マイクと圧力センサの両方を利用する。音声の包絡をヒルベルト変換で求め、包絡の最大値が時間的に突出しているところを風雑音領域として検出する(異常検出の考え方に基づく)。

Study on Speech Represetation based on Spikegram for Speech Fingerprints (Dung Kim et al)
鵜木研。このまえEMM研で聞いた。ガボールとガンマトーン基底信号を使ってMatching Persuitで入力音声をスパース表現する。両者を比べるとガンマトーンの方が分析合成音声の品質が高い。得られたスパース表現からLocal Binary Pattern (LBP)を作る。

Embedding Multiple Audio Audio Data Using Information Misreading Technique (Naofumi Aoki)
No Show。

13289317 journal
日記

aitoの日記: 5/22-23 EMM&IT研究会@米沢まとめ

日記 by aito

5/22-23 EMM&IT研究会@米沢

5/22(月)

(1) JavaScript難読化手法jjencodeを用いたプログラムへのデータ埋め込みの一方法(京大)
日置先生。JavaScriptを難読化し、その難読化過程に情報を埋める。難読化ツールとしてjjencodeを使う。jjencodeはJavaScriptのコードを非英数字のみに変換する方法。難読化の過程に冗長性があるので、そこに情報を埋める。jjencodeの仕組みの解説があったが、これはトリッキーだ。情報の埋め込みは、文字生成の方法(型変換を使う、文字リテラル(8進数、16進数、ユニコード)、変数を使う)の冗長性を利用する。この方法により、1文字が24倍ぐらいになる。データ埋め込み率2%(スクリプトの2%程度を埋め込みに使える)。

(2)RANSACアルゴリズムを用いた特徴点マッチングに基づく電子透かし検出法(電通大)
画像電子透かしの透かし埋め込み領域抽出のための特徴点検出。幾何変換攻撃への耐性を上げるのが目的。SIFTで原画像と埋め込み画像から特徴点を抽出し、RANSACで対応点を求め、そこから埋め込み画像を現画像に戻す射影変換を推定して画像をもとに戻す。対応点検出と画像補正としてはスタンダードな方法に見える。埋め込みはDCT係数だが、結構荒っぽい方法に見える。

(3) PDFファイルの内部構造を考慮した大容量電子透かし法(岡山大)
栗山先生のところ。単語を構成する文字間の間隔系列をベクトルだと思って信号処理的な手法により情報を埋める。ベクトルをランダムに置換し(置換パターンが鍵になる)、置換後のベクトルをDCTして周波数領域に情報を埋め込む。埋め込みはディザQIM。

(4) 組織内からの情報漏洩対策のための電子指紋システムの提案(岡山大)
これも栗山先生のところ。組織の階層に応じて文書のアクセス権制御ができる電子指紋(を使った文書暗号・復号システム)の提案。よくわからなかったが、アクセス条件が設定できる(アクセス権がある場合には、利用者は自分の鍵で文書が復号でき、復号された文書には自分の電子指紋が残る)ところが新しいのかな。

(5) An Application of Universal FV Codes to Source Coding Allowing Errors (和歌山大)
葛岡先生。この時間は外に出ていたので聞けなかった。

(6) 非調和フーリエ級数(Anharmonic Fourier Series)の紹介 (ディスプレイ研)
枕がプラズマディスプレイの話だったが(筆者はNHKでプラズマディスプレイを開発していたそうだ)中身は級数展開の話。AHFSは f(x)=sum from I=1 to infinity b_i sin(lambda_i x) の形で書けて、lambdaは
lambda cos(lambda)=-b sin(lambda)
を満たすような定数。拡散方程式が出てくるのだが、よく理解できなかった。

(7) ブロック暗号Fewの高階差分特性 (航空自衛隊)
東京理科大との共同研究らしい。2014年に提案されたブロック暗号Fewの高階差分耐性について調べた。中身はよく理解できない。

(8)知的情報処理の最前線―スパースモデリング vs 深層学習―
枕は機械学習によるカンニング検出の話。
・世の中では何が起きているのか?「逆問題の解決」
y=f(x) において、yがわかったときに f または x を知りたい
        f を知る問題:ディープラーニング
        x を知る問題:圧縮センシング
・ディープラーニング
シグモイドとReLUの問題
確率勾配法、Adagradなどの最適化法
・応用例
肝臓の形状推定など
・スパースモデリング、圧縮センシング
例:MRI画像の復元
・データをスパースにする学習:辞書学習
・LASSOの話
・ADMM法 2つ以上のコスト関数の和の最小化
 拡張ラグランジュ法を使う

5/23(火)

(9) 録音信号に含まれる電源周波数信号の除去および偽装による反法科学手法とそれらの検出 (東京情報大)
西村先生。録音に含まれる電源周波数(ENF)変動から録音時刻・場所を同定する手法の話だが、その消去・偽装と偽装検出の話。電源周波数をノッチフィルタで除去してから別なENFを加算する偽装法が開発されている。これに対し、電源信号の振幅と位相を推定してそれを元信号から引くという方法を提案。そちらの方がENF除去がわかりにくい。
新しい偽装検出法として、ENF自体を調べる方法が提案されているが、新たに提案した偽装が検出できない。そこで、信号からENFを除去して、その周辺の統計量を調べる方法を提案。元のENF除去処理の窓長がわかっていれば高性能。

(10) 自転車用拡張音響現実の環境音フィードバックにおける風雑音対策の検討 (山形大)
近藤研。自転車のための音響VRによるナビゲーション。しかし耳をふさぐことはできないので、ヒアスルーイヤフォンを使うことを検討。ヒアスルーイヤフォンはイヤフォンにマイクがついていて外部音を聞かせる(補聴器と同じ)システム。しかしヒアスルーイヤフォンは風雑音を拾うので、これを信号処理で低減する。今回はこれを実際の利用状況に近い状態で評価。信号処理として、SS,ウィナーフィルタ、反復ウィナーフィルタおよひHPFを検討。これらの中では反復ウィナーフィルタが有効で、風防とHPFの有無によらず了解度が高い。それ以外の方法では風防・HPFともに有効。遅延は200ms程度。音声了解度は骨伝導イヤフォンより高い。

(11) 音声フィンガープリントと電子透かしを用いた音声改ざん検出法の一検討 (山形大)
近藤研。取り調べ中の音声が改ざんされないように、音声にフィンガープリントを透かしとして埋め込む。フィンガープリントとして量子化LSPを利用。埋め込みはスペクトル拡散。改ざん検出としての有効性がよくわからなかった。

ここで抜けたのでこの後の講演は聞けなかった。

13180422 journal
日記

aitoの日記: 2017/3/7 EMM研究会@宮古島 2日目

日記 by aito

3月7日(火) 午前? 一般 座長:薗田 光太郎(長崎大) 09:25 - 10:40
(13) 09:25-09:50
PDCAサイクルに基づく健康メディアに対するセルフケア法の提案
○千種康民・山崎祥行(東京工科大)
個人の健康管理をPDCAサイクルの手法でやりましょうと言う提案。事例紹介などもあったのだが、PDCAサイクルのおかげなのかどうか判然としない。

(14) 09:50-10:15
バイノーラル音響コンテンツの臨場感向上に向けたバイオフィードバック応用について
○長嶋洋一(静岡文化芸術大)
枕は伊良部島のマルヨシ食堂でジャンボカツカレーを食った話。食いすぎて気持ち悪かった話から、内観とバイオフィードバックの話。きんでんセンサーとジェスチャー認識によるリハビリシステム。
大学で学生が制作したメディアアートの紹介。ダミーヘッドの口にLeapMotionをつけて、前にある手の動きから母音をフォルマント合成して、それをダミーヘッドの周りにあるスピーカーで再生。
最終的には、音情報をバイノーラル提示したときに、そのときの情動を脳波などで観測し、それをバイノーラル音にフィードバックする(たとえば情動が大きくなる方向に)ということらしい。

(15) 10:15-10:40
非負値行列因子分解を用いた音楽電子透かし法の音高推定の改善 [変更あり]
○村田晴美(中京大)・荻原昭夫(近畿大)
いつもの。二重奏に対するNMFを使った電子透かしについて検討していたが、抽出時に埋め込み時の音高推定情報が必要。そこで、音高推定を改善することにより、情報抽出を改善する。具体的には、従来は発音時刻順に情報を埋めていたが、埋め込み操作によって信号が変化することによって発音時刻が変わることがあるので、発音時刻ではなく音高が低い順に埋め込みを行う。

10:40-10:50 休憩 ( 10分 )
3月7日(火) 午前? 一般 座長: 伊藤 彰則(東北大) 10:50 - 11:40
(16) 10:50-11:40
[招待講演]球状マイクロホンアレイを用いたバイノーラル3次元音空間創成手法
○坂本修一・サルバドル セザル・トレビーニョ ホルヘ・鈴木陽一(東北大)
・音情報の特徴について。「雰囲気」などの再現には音の空間的情報が重要。
・音空間の収音と再生法。
        再生:ステレオフォニック、聴取点音圧制御、音場合成
        収音:サラウンド収音、アンビソニックマイクロフォン
・球状マイクロフォンアレイを使ったバイノーラル音空間収音再生
        HRTFモデル化法:各マイクロフォン入力に重み付けして加算することでHRTFを模擬する
        収音信号モデル化法:HRTFの測定位置に配置したバーチャル音源おn駆動信号をマイクロフォン入力から推定する
        どちらの手法がよいかはマイクロフォン数とHRTF測定点数の大小関係によって決まる
・SENZIシステム
・水平面での距離によるHRTFへの影響のモデル化

11:40-13:00 昼食 ( 80分 ) 3月7日(火) 午後? 一般 座長: 岩村 惠市(東京理科大) 13:00 - 14:15
(17) 13:00-13:25
画像入力型情報検索システムにおける利用者の位置履歴の保護
○藤井宏次朗・中村和晃・新田直子・馬場口 登(阪大)
画像による場所の情報の検索(スポット検索)タスクで、サーバ側で検索結果のスポットがわからないようにする。具体的には、画像検索の特徴量をクライアント側で線形部分空間に射影し、それをサーバに送ることで意図的に認識精度を落とし、サーバで認識された複数候補に対してクライアント側で再認識することで結果を確定する。また、複数回の検索結果からも現在位置が推測されにくいように認識結果候補を調整する。この方法では大まかな位置の推測されやすさと詳細な位置の推測されやすさにトレードオフがあるようだ。

(18) 13:25-13:50
幾何学的錯視による疑似力覚の付与を目指したテクスチャ提示方式に関する一検討
○小野里勇希・宮本龍介(明大)
クッションなどを押したときに、プロジェクションマッピングによって物体が凹んだ画像を物体に投影し、物体が凹んだ感覚を想起させる。質疑でだいぶ批判されていた。

(19) 13:50-14:15
共通鍵暗号とプログラムのハッシュ値によるファイルアクセス制御を用いた機密情報保護
○市川 実・宇田隆哉(東京工科大)
マルウェアによるファイルアクセスを防ぐために、OSを仮想マシン上で稼働させ、プログラム単位でファイルアクセス権を設定する。またファイルをすべて暗号化し、仮想マシンが暗号化・復号化を行う。

13180419 journal
日記

aitoの日記: 2017/3/6 EMM研究会@宮古島 1日目

日記 by aito

(1) 14:30-15:30
[ポスター講演]KAZE特徴量を導入した電子透かし法の検討
○深田有花・川村正樹(山口大)
KAZEで特徴点を求め、特徴点の周りに(特徴点によって決まるスケールで)透かしを埋め込む。透かしの中にマーカ情報を入れ、取り出しがどの程度うまく行っているかを推定し、最終的に複数の特徴点から取り出した透かしで多数決を行う。SIFTより(スケーリング変換以外は)頑健。

(2) 14:30-15:30
[ポスター講演]多元LDPC符号を用いた電子透かし法とJPEG圧縮に対する評価
○佐伯豊彦・野崎隆之・川村正樹(山口大)
GF(2^m)を利用するLDPC。従来研究ではmが大きいときは性能が高くなったので、JPEGへの電子透かしに応用してみたが、GF(2)の場合よりよくならなかった。

(3) 14:30-15:30
[ポスター講演]3Dプリンター造形物への情報埋め込みと近赤外線反射像による読み 出し技術
○中村耕介・鈴木雅洋・高沢渓吾(神奈川工科大)・高嶋洋一(NTT)・鳥井秀幸・上平員丈(神奈川工科大)
一連の3Dプリント物への情報埋め込み。今回は黄色い本体に白いマーカを埋め込み、近赤外光を当てて近赤外カメラで検出。定量的評価はない。

(4) 14:30-15:30
[ポスター講演]画像特徴量に基づく同期回復を用いたDCT-OFDM型電子透かし方式
○市岡由偉・小嶋徹也(東京高専)
AKAZEで特徴点を数個求め、それを埋め込みブロック境界として画像をブロック分割して情報を埋め込む。埋め込みはDCTの低周波成分で、複数の境界で埋め込むときに異なる風波数帯域に情報を埋める。取り出し時には、検出した特徴点をブロック境界の候補として分割してみて、うまく取り出せたものを利用する。

(5) 14:30-15:30
[ポスター講演]継続認証実現に向けた歩行中の心拍データ系列を用いた個人認証
○吉田崇晃(阪大)・河野和宏(関西大)・馬場口 登(阪大)
スマートバンドから得られる心拍データを使った個人認証。20分ぐらい歩いたときの心拍数の統計量を使う。EERは17%ぐらいで低くはないが、ほかのモダリティと併用することを検討しているそうだ。運動が同じでないと認証は難しいだろうなあ。

15:30-15:40 休憩 ( 10分 ) 3月6日(月) 午後? ポスターセッション(後半) 座長: 岩田 基(阪府大) 15:40 - 16:40
(6) 15:40-16:40
[ポスター講演]攻撃耐性向上のためのブロックスクランブル暗号化法とその鍵管理
○小笠原剛史・今泉祥子(千葉大)・貴家仁志 (首都大東京)
ブロックスクランブル暗号化で、複数の画像を同時にスクランブルすることでスクランブル強度を高める。

(7) 15:40-16:40
[ポスター講演]ヘッドマウントディスプレイを用いたARによる電子書籍インタフェイスの開発
○中原 匠・日置尋久(京大)
紙のノートにマーカを書いておいて、その上にARで電子書籍のコンテンツを重畳したインタフェース。紙を物理的にめくることで電子書籍のページがめくれる。ページ数が多い書籍を使うためには物理的なノートも厚くなければならないのが欠点。

(8) 15:40-16:40
[ポスター講演]相対テキスト長パターンに基づくPDF文書に対する電子透かし法
○岩本拓也・川村正樹(山口大)
PDFへのステガノグラフィ。文字ブロック3つの長さの大小関係の組み合わせのパターンに情報を埋める。情報を埋め込む場合には、すでにある文字ブロックを分割することで対応。

(9) 15:40-16:40
[ポスター講演]音割符を用いた音響電子透かしシステムの一検討
○野口 洲・薗田光太郎・喜安千弥(長崎大)
カバー信号と、それに組み合わせる別な信号(タリー信号)を用意し、2つを混ぜた信号に情報を埋めた上で、カバー信号だけを取り出して送信する。タリー信号がないと情報が読み出せないので、タリー信号を科技のように使える。埋め込み手法はエコー拡散。しかし実験結果からは、適当な信号をタリーとして使ってもそこそこ情報が抽出できてしまう。

(10) 15:40-16:40
[ポスター講演]完全相補系列系を用いた画像電子透かしにおけるホスト信号近似法の性質について
○加藤 翔・小嶋徹也(東京高専)
16:40-17:00 休憩 ( 20分 )
完全相補系列(CCC)系の信号の組み合わせだけから画像を生成するという手法(1月のEMM研で聞いた)。今回は、CCCの長さと近似画像のPSNR、透かしの検出精度(BER)を比較した。長いCCCの方が、近似精度は悪いがBERは小さい。

3月6日(月) 午後? 一般 座長: 今泉 祥子(千葉大) 17:00 - 17:50
(11) 17:00-17:25
4K用カメラ用フォーカスアシストの開発 ~ 暗照明条件でも高ノイズ耐性を実現 ~
○合志清一(工学院大)
4kカメラの場合、マニュアルでフォーカスをあわせることが困難。しかし演出としてフォーカス合わせを行うのでオートフォーカスをつけることができない。またアンシャープマスクなどの信号処理では雑音が出やすい。提案法では元画像のエッジ関数に非線形関数を作用させてから元画像に加える。従来法と比較して、暗い部分の雑音がより抑えられている。

(12) 17:25-17:50
多感覚コンテンツの高次感性知覚に音情報から生成した振動情報が及ぼす増強効果 [変更あり]
○崔 正烈・柳生寛幸・坂本修一・行場次朗・鈴木陽一(東北大)
VRコンテンツを前景(迫真性)と背景(臨場感)に基づいて評価する。画像・音声に振動を加えて迫真性と臨場感を制御するが、実際の「場」について振動を観測することは難しいので、観測された音情報から振動を生成して観測者に提示する。観測者はスライダーで連続的に迫真性または臨場感を評価した。その結果、音響信号から生成した振動はオリジナルの振動を加えたものと同程度の臨場感を与えることがわかった。迫真性はオリジナルよりも高くなる。また、振動強度が大きくなると、迫真性はいったん大きくなった後で下がる傾向にある。

13173417 journal
日記

aitoの日記: 2017/2/28 音楽情報科学研究会2日目

日記 by aito

2月28日(火)

■音楽音響分析[9:00-10:30]
(10)ソプラノ歌手の歌声における母音知覚—基本周波数および声楽経験の影響—
   遠藤 希美,川原 繁人,皆川 泰代
音声の基本周波数が高くなると母音の聴き取りは悪くなるが、それに聴取者の声楽経験がどう関係するのかを調べた。440Hzと880Hzでは880Hzのほうが聴き取りは悪いが、声楽経験の有無による効果はまちまち。声楽経験がある方が反応時間は長い。

(11)ニューラルネットワークによる楽器の音色の識別
   山田 雅之,守田 了
楽器音のスペクトルから基本周波数を求め、基本周波数成分と倍音成分とのパワー比を4ビットに量子化した2進パターンを入力としてNNを学習。使用データは少ない。なんでこんな方法を使うのか理解できない。

(12)歌声の習熟度に関連する周波数特性に基づく音響特徴量の特定個人の長期的変化
   吉田 祥,香山 瑞恵,池田 京子,山下 泰樹,伊東 一典,浅沼 和志
声楽練習の習熟度の客観評価指標を得るのが目標。主にsinger's formantに注目していて、singer's formant関連の周波数帯域のパワー比(SFR)、LPC分析した時のsinger's formant相当のピークのQ値、および2凸(2次LPCで1番目と2番目の谷と山のレベル差)を使う。指導前の歌声と指導1年後の歌声、およびプロの通常及び初心者っぽい音声を使って比較。

(13)コード進行に注目したJ-POP音楽の可視化
   上原 美咲,伊藤 貴之,高塚 正浩
楽曲検索を目的とした楽曲の可視化。楽曲間の類似度(MIRtoolboxを利用)に基づいて楽曲を2次元で表示したものと、楽曲の属性(作曲者、コード進行など)をGeodesicSOMで2次元で表現したものの2面を使う。コード進行はWebサイトから取得。評価が難しい研究だと思うが、がんばって有効性を評価している。

■音楽制作[10:40-11:50]
(14)欧露ツアー2016報告
   長嶋 洋一
長嶋先生のヨーロッパ漫遊記。
Tempora international meeting 2016(ボルドー)。ラズパイを使った手作り楽器のパフォーマンスなど。
ICMC2016(ユトレヒト)。
エカテリンブルグでの講演→列車で25時間→モスクワで講演。
ICEC2016(ウィーン)。

(15)WebRTCを用いたDAW用遠隔指導支援システムの開発
   野原 祐一,辻 靖彦
イントロの途中でPCが電池切れで落ちるというハプニング。内容はDAW利用の遠隔指導。WebRTC(ビデオチャットのW3C規格)を利用する。SkypeやTeamViewerではオーディオコーデックが低品質すぎて使えないので、ブラウザベースでシステムを自作。

(16)原曲スコアの音楽特徴量に基づくピアノアレンジ
   高森 啓史,佐藤 晴紀,中塚 貴之,森島 繁生
楽曲の自動ピアノアレンジ譜面生成。メロディーライン、リズム、コード進行を原曲と同じにしながら、音域を広くとって音の厚みを考慮したアレンジを行う。原曲スコアを一度音楽特徴量(メロディ、リズム、厚み)に変換してからピアノ譜を生成する。右手パートはメロディラインに適宜和音を加え、左手パートはコードに合わせて伴奏データベースから選択する。

■音楽自動生成[13:00-14:30]
(17)動画特徴量からの印象推定に基づく動画BGMの自動素材選出
   清水 柚里奈,菅野 沙也,伊藤 貴之,嵯峨山 茂樹,高塚 正浩
ワンシーンの動画に対して適切なBGMを自動生成する。動画から特徴量を取り出し、そこから事前に用意したBGM素材(コード進行等)を選んで楽曲を生成する。特徴量としては、動画の低水準特徴からからSOMを使って生成した印象値、メタデータのword2vecから生成した印象値などを使う。動画から推定した印象値に最も近い音色とコード進行を選び、動画の長さにあったテンポで曲を生成する。動画の動きについては、画面全体の動きではなく対象の動きだけを使った方が高評価。

(18)2階マルコフ過程を用いたHMMによるコード付与手法の提案
   森 篤史,新井 イスマイル
HMMを使ったコード付与は、状態をコード、出力ベクトルを小節内の音の長さの総和として、与えられたメロディに対してビタビアルゴリズムで状態列(コード列)を決定する。これに対して提案法では、2コード前まで考慮するために2次のマルコフモデル(2つのコードの組み合わせを状態とする)を使う。人間が付与したコードよりは主観評価値が低いが、評価者にとって初見の曲だけで評価すると人手と同程度の品質。

(19)秩序と混沌の度合いを考慮したメロディー生成に対する数理計画法の適用
   村上 智之,森口 聡子
数理的な方法によってメロディ生成を行うのだが(行列不等式を解いて、どの音が使われるか調べる)、よくわからなかった。単純な方法では一定のメロディが生成されてしまうので、出力がほどほどカオティックになるようにする(?)。

(20)予測変換のアイデアを用いた作曲支援システムの提案
   山下 峻,藍 圭介,エバンズ ベンジャミン,棟方 渚,小野 哲雄
途中までメロディを作曲した時に、それに続くメロディ候補を提示してくれるシステム。POBoxの考え方と同じ。あらかじめ2小節の相対化されたメロディの組のデータベースを保持しておき、入力メロディと最も類似したものをデータベースからとってきて後続メロディを提示する。

■音楽練習支援[14:40-16:10]
(21)楽譜簡略化と自動補完伴奏によるピアノ演奏練習支援システム
   福田 翼,中村 栄太,糸山 克寿,吉井 和佳
ピアノ練習のために、既存の楽譜を簡略化して音符を減らす。同時に、演奏した時に簡略化前の音を自動的に保管して流す。簡略化はルールベース。演奏時の音符の補完は自動伴奏システムEurydiceを使う。さらに、これまでの演奏者の演奏データ(どのようなところでどういうミスをしたか)によって、どの程度の簡略化をするかを自動的に決定する。演奏誤り予測の交差検定による性能は0.52。

(22)モバイル端末のブラウザ間で実現する即興的音楽演奏の教育支援アプリケーション
   横山 裕,岩井 将行
ブラウザベースの簡単なキーボード。PCに音源、タブレットにキーボードを表示して連携することができる。また、スケールを設定すると特定の鍵盤だけを有効にすることができて、どれを押してもそれなりの演奏になるようにできる。教育支援というのは言い過ぎのように思うが。

(23)最適な多視点カメラワークを自動生成する遠隔ピアノレッスン支援システムの設計と実装
   松井 遼太,竹川 佳成,平田 圭二
対面環境でのピアノレッスンに近い環境を目指した遠隔ピアノレッスンシステム。鍵盤共有、楽譜共有、学習者の映像の送信などの機能がある。演奏者を7台のカメラで撮影しているが、現在の演奏・過去のミスタッチ・楽曲構造などを考慮して最適なカメラワークを自動的に行う。最適視点予測はNNによる。正解率は68%。

(24)Strummer:インタラクティブなギターコード練習システム
   有賀 竣哉,後藤 真孝,矢谷 浩司
ギターコードの「重要性」「練習すべき優先度」を定め、それが低いコードからなる曲が練習できるシステム。Chord Primariness(CP)はコードを押さえる難しさと出現頻度からなる指標(簡単で頻出するコードが重要)。また、コード遷移の難しさを推定するモデル(線形回帰)を学習。また、Song Primariness(SP)は、コードの難易度を考慮した時の楽曲の「練習すべき優先度」を表す。これをもとに、練習システムStrummerを作成した。SPに基づいて練習曲を提示し、実際にギターを弾いた音からコードの正しさを判定する。

■楽曲検索・推薦[16:20-17:30]
(25)音響特徴と歌詞に基づく楽曲検索システム
   金津 達也,大坪 正和,吉田 香
歌詞特徴と音響特徴の重要度を変えられる楽曲検索。音響特徴はMFCCで、16個のクラスタを作って、曲間の距離はEMD。歌詞特徴量はLDAで距離は対象KL divergence。実験の結果、MFCCのみの結果よりも提案システムの方が適合率が低かった(LDAによる検索精度が低いため)。

(26)機械学習を利用したDTM音色検索フィルタの提案と音色づくり支援システムへの適用
   齋藤 創,大場 みち子
感性語を使った音色の検索で、人によって異なる感性語から同じ音色を検索できるように、感性語から音響特徴量への写像を機械学習によって求める。SVMとアドホックな変換式を使う。

(27)複数ユーザー間での楽曲推薦を実現するミュージックプレイヤー:楽曲類似度の導入と有効性の検証
   鈴木 潤一,北原 鉄朗
複数人がそれぞれデバイス内に持っている楽曲データを推薦するシステム。自分のデバイスについては再生回数をもとに期待度を計算する。他人のデバイスについては、すでに期待度が計算されている楽曲との音響類似度に基づいて期待度を計算する。また、last.fmによるアーティスト類似度も利用する。

この後、北原主査の退任あいさつとセレモニー。

13172698 journal
日記

aitoの日記: 2017/2/27 音楽情報科学研究会1日目

日記 by aito

■演奏・歌唱支援[13:00-14:10]
(1) 独奏認識誤りに頑健な音響入力伴奏システム
   足立 亜里紗,堀内 靖雄,黒岩 眞吾
自動伴奏のための音符認識で、同じ音高の音符が連続する場合の問題。検出漏れ・過検出の場合に、演奏者がおおむね伴奏に合わせて演奏しているという仮定の下で演奏が破たんしないようにする。演奏者の音符が来るべき時間から前後に信頼度を設定し、それを使って未検出の音符を仮定したり検出した音符を無視したりする。

(2) DPマッチングのコストに視線情報を反映させた楽譜追跡手法の提案
   寺崎 栞里,竹川 佳成,平田 圭二
自動伴奏のための楽譜追跡。打鍵情報だけでなく楽譜を見る視線を使う。従来は打鍵情報による複数の演奏箇所候補の中から視線を使って最終候補を選んでいた。今回は候補の検出自体に視線情報を入れる。注目する音符とその時の視線をモデル化する「視線モデル」(HMM)を使い、打鍵情報と視線尤度の両方を考慮してDPマッチングを行う。誤打鍵があったときの追跡に有効。推定制度は従来法と同じくらい。視線モデルの精度が低いと全体のパフォーマンスが落ちる。

(3) スマートタンバリン:音と光で場を盛り上げるカラオケ支援システム
   栗原 拓也,横溝 有希子,竹腰 美夏,馬場 哲晃,北原 鉄朗
カラオケで暇な聞き手のためにタンバリンの譜面を生成表示してタンバリン演奏の判定を行うシステムを従来提案していた。今回は光るタンバリンを3Dプリンタで自作。つかみ方で音量調節ができる。またタンバリン譜をより簡単にすると同時に、参加率(演奏参加度)に応じてフィードバックを表示する。実際にカラオケ屋で使ってみて評価した。評価が低くはなかったが、スマートタンバリン自体はそれほど使われなかった模様。

■歌声の分析と合成[14:20-15:30]
(4) Experiments in Making VOCALOID Synthesis More Human-like Using Deep Learning
   Michael Wilson,Pritish Chandna,Ryunosuke Daido,Yuji Hisaminato
さまざまな実験により人間とVOCALOIDの音声を比較。オートエンコーダ4種類を試したが、周波数領域でのCNNを使うとF0抽出のようなものが学習された。次に人間とVOCALOIDの判定器を学習。精度は振幅スペクトルを使って最高94%ぐらい。次に敵対的学習でVOCALOID音声を人間っぽくするポストフィルタリング。変換にはLSTM使用。F0とラウドネスを変換したら音痴になった。4つめは、オートエンコーダで音声を2つに分離し、片方をF0だけから生成する。最後にVOCALOIDの音声を人間の音声に変換するネットワークを作った。

(5) 能の声楽「謡」における発声と音色の解析・考察~和の“渋い声”と洋の“クリスタルボイス”~
   田中 敏文,於久 光輔,永原 正章,山本 裕
「和」の発声法について。最初に「洋」と「和」の声で謡を実演。また様々な声をスペクトル解析。腹から声を出すと非整数倍音成分が多くなる。

(6) 瞬時周波数および群遅延に基づく非周期成分推定法再考
   河原 英紀,榊原 健一,森勢 将雅,坂野 秀樹
音声の非周期成分の推定。周期成分の推定から非周期成分を測る。ナットール窓で切り取って分析した瞬時周波数成分を平滑化したものをF0の間隔でサンプリングしたものがノイズフロアになる(よくわからない)。実音声についての推定はまだ課題があるらしい。

■自動楽曲分析[15:40-16:30]
(7) スペクトログラムの階層的クラスタリングを用いたグルーピング構造分析について
   澤田 隼,竹川 佳成,平田 圭二
GTTMのような木構造による音楽の分析を信号レベルで行う。入力のスペクトログラムを1拍ごとに分割し、テクスチャの類似性によって階層的クラスタリングを行う。スペクトログラムのテクスチャはどちらかというと音色を表すので、GTTMでの類似度として使うのは難しいのではないかなあ。

(8) 大域・局所リズムパタンテンプレートマッチングに基づく楽曲の伴奏スタイル識別
   篠井 暖,前澤 陽
伴奏のスタイルを識別する。伴奏の種類によってジャンル分類や推薦などに応用できるという話らしい。パターンとして、楽器編成、リズムパタン、BPMを考える。ヤマハのキーボードに入っている伴奏スタイルデータをテンプレートとする。特徴量として、スタイルデータから抽出したスペクトル基底を使ってNMFで求めたアクティベーション行列(リズムパターンの特徴量)、ビートの長時間スペクトルなど。それぞれの特徴量の相関係数とBPMの類似度から類似度を計算する。

■産学連携企画[16:50-18:20]
(9) パネルディスカッション:研究をイノベーションにつなげる~使ってもらってなんぼでしょ!~
   帆足 啓一郎,藤島 琢哉
プラスアドCEO 小池宏幸
・会社の説明。音楽ITベンチャー
・piaScore, Tuner, Piano+, Joyle(オンライン楽器レッスン)
・Problem first, not solution
・車がない島に信号機を作らない
しくみデザイン 中村俊介
・KAGURA(インタラクション楽器)
・体感型コンテンツ、広告、ゲームなど
・製品版では音の製作ができる
ヤマハ新規事業開発部 松本恵
・ヤマハの多角化 楽器・音響機器・その他
・産学連携・協業
 FM音源(スタンフォード大)
 ボーカロイド(ポンペウファブラ大)
 Stretchable strain sensor(静岡大学)CNT応用
 第一興商、VIE STYLE
・新規事業開発
 Value Amplifier(社内ベンチャーみたいなやつ)
  おもてなしガイド(音響データハイディング)
  HEARTalk(音声対話の韻律)
 Yamaha Sound & Music Innovation Platform
  なかなか難しい

12872996 journal
日記

aitoの日記: 2016/8/9-10 EA研・聴覚研@東北学院大多賀城キャンパス

日記 by aito

8月9日(火) 午後
座長: 島内 末廣 (NTT)
13:00 - 14:30
(1) 客観尺度を単語候補間で比較する二者択一型了解度推定方法の検討 ○近藤和弘(山形大)
二者択一型の単語了解度主観評価(DRT)に対応する客観評価手法の改良。試験用単語対セットを用意し、どちらかの単語の劣化した奴をクリーンな2つの候補単語をそれぞれサブバンドに分けて、サブバンドごとに重み付きで距離を求める。正しい単語間の距離が誤り単語間の距離より大きいかどうかで値を±1に振り分けてサブバンドについて集計。従来の(PESQより良いとされる)客観評価法よりも種環境価値と高い相関を示す。

(2) バイノーラル音声了解度の客観推定方法の改良 ○平 和也・近藤和弘(山形大)
両耳受聴時の音声了解度の推定。帯域ごとのSNRを基本とした特徴量を使うが、右か左のSNRが良い方を使うモデル(ベターイヤーモデル)、帯域ごとに良い耳を選ぶモデル(帯域別ベターイヤーモデル)、右と左耳の帯域を全部使うモデル(フルモデル)をモノラルと比較。クローズドの場合、提案の3モデルはいずれもモノラルより良く、回帰はランダムフォレストが良い性能。オープンテストでは、ニューラルネットとSVRはいまいちな性能。ランダムフォレストはロジスティック回帰より少し良い。特徴量はベターイヤーモデルが良い。

(3) 音声強調のための音声調波構造の時間周波数変化による位相復元 ○若林佑幸・福森隆寛・中山雅人・西浦敬信・山下洋一(立命館大)
音声強調における位相復元処理。音声強調では昔から位相は重要視されてこなかったが、最近は位相の重要性が見直されてきている。STFTPI法(STFT位相改善法)は、音声を基本波とその高調波だけからなると仮定して位相を復元する方法。これは単純な方法だが、初期値依存性が高いことと、時間変化が人工的で音質が悪いことが問題。これを改善するため、高域(SN比が低い)での位相を推定する方法と、自然な位相の時間変化を推定する方法を提案。事前SNRによって位相の信頼性を評価し、信頼できる周波数ビン(おおむね調波成分)について、位相を低次の高調波から順次求める。

8月9日(火) 午後 城戸健一先生メモリアルセッション
座長: 伊藤 彰則(東北大)
14:45 - 16:45
(4) 14:45-15:25 [招待講演]故城戸健一先生のご業績 ~ 電気音響分野を中心に ~ ○安倍正人(岩手大)
(5) 15:25-16:05 [招待講演]故城戸健一先生のご業績 ~ 音声分野を中心に ~ ○牧野正三(東北文化学園大)
(6) 16:05-16:45 城戸先生との思い出

香野俊一先生(東北大学・二村研出身)
鈴木陽一先生(東北大学・二村研出身)
金井浩先生(東北大学・城戸研出身)
大槻恭士先生 (山形大学・城戸研出身)

8月10日(水) 午前
座長: 平原 達也(富山県立大)
10:00 - 11:30
(7) 10:00-10:30 ウエーブレット解析を用いた分娩監視装置からの胎児心音のノイズ除去実験について ○荒木睦大・森 幹男・浅井竜哉・玉村千代・高橋 望・西島浩二・吉田好雄(福井大)
超音波ドプラによって観測した胎児の心音のノイズ除去。胎児の心音を観測して、心音の周期の変動を調べたいが、雑音が多いため困難。そこでWavelet denoisingを使って雑音を除去する。マザーウェーブレットは7~8次Daubechies。定量的評価はなし。

(8) 10:30-11:00 ロングパスエコー下における既存の緊急速報を模した4連単語の了解度 崔 正烈・○坂本修一・田村祐揮・鈴木陽一(東北大)
これまでロングパスエコー下での音声聞き取りを向上させるためにフレーズ間にポーズを入れる手法を検討してきた。そこでは人為的な固定長単語連鎖を使っていたので、今回は単語(文節)の長さにばらつきがある場合の検討を行った。まず地震・津波の警報文などを分析。4モーラ文節が最も多い。文長の最頻値は9~12モーラ。この分析結果を受けて、3~6モーラ/文節×4文節のパターンを作って実験を行った。その結果、1~2モーラ文のポーズを入れることによって聞き取りが向上。

(9) 11:00-11:30 インパルスハンマを用いたコンクリート構造体内部空隙の非破壊診断法の実験的検討 ~ プレストレストコンクリート橋における未充填シースの診断 ~ ○藤岡豊太・永田仁史・安倍正人(岩手大)
打撃によるコンクリートの非破壊検査の方法をコンクリの橋に適用。プレストレストコンクリート(pre-stressed concrete)は、あらかじめ内部に圧縮応力を入れておくことで引っ張りに強くしたコンクリート。ポストテンション方式では、コンクリート構造体にあらかじめ穴(シース)を通しておいて、そこにPC鋼材を通して引っ張り、グラウト(重点用のセメント)を入れて固化させる。実験では、複数あるシースのどれかをわざと空洞にしておいて、それを検出できるかを検討。実測により空隙によって差があることを確認。また、FDTD法でシミュレーションを行った。定性的には合っているが、値の再現性はいまいち。

8月10日(水) 午後
座長: 渡邉 貫治(秋田県立大)
12:50 - 14:20
(10) 12:50-13:20 FDTD法による任意境界音場計算のためのボクセライザーの開発 ○土屋隆生(同志社大)
土屋先生の夏の自由研究。3次元FDTD法における3次元形状のボクセル表現を得るために、STLまたはOBJ形式表面形状モデルからボクセル表現を合成するためのプログラムSUF2VOXを書いた(MATLAB)。応用として頭部モデルからHRTFを計算してみた。

(11) 13:20-13:50 頭部運動を伴う音像定位時の純音検知限 ○岩谷幸雄(東北学院大)・本多明生(山梨英和大)・尾崎佑介(東北学院大)
頭を動かすと音像定位精度が上がることがわかっているが、その詳しいメカニズムはよくわかっていない。視覚におけるサッカード抑制と同じようなことが起きているのかどうかが知りたい。そのため、音像定位時の純音の閾値を測った。被験者の前に置いた複数のスピーカから帯域阻止ピンクノイズを出して定位させると同時に、被験者の真上にもスピーカを置いてそこから純音を流し、それが知覚できたかどうかを調べる。その結果、頭部運動条件では純音の閾値が上昇した。

(12) 13:50-14:20 音源距離も考慮した音空間共有型2領域音場再現 ○清水 拓・トレビーニョ ホルヘ・坂本修一・鈴木陽一(東北大)・伊勢友彦(アルパイン)
音場再現で、再現領域を複数設ける方式を従来提案している。従来は平面波しか再現できず、音源からの距離感を提示することができていなかったが、今回の発表では球面波に対応した。

12870269 journal
日記

aitoの日記: 2016年7月30日~31日 MUS研究会@東京理科大野田キャンパス

日記 by aito

7月30日 音楽情報科学研究会@東京理科大 野田キャンパス

13:30~ 音楽分析
(1) SMF解析による楽曲の難易度判定(木更津高専)
間に合わなくて途中から。MIDIからピアノ曲の演奏の難しさを推定する手法のようだが、すべてヒューリスティックなのでいろいろ突っ込まれていた。

(2) 平均情報量からみたクラシックギター国際コンクールの自由曲の特徴分析(東海大)
コンクールで使われた曲の分析。最初に人気曲の作曲家の分布などを年代別に分析。また音高・音名・音価それぞれについて、古い作品よりも新しい作品の方がエントロピーが大きい。

(3) 作業用BGMに特化した楽曲推薦システム(筑波大・産総研)
後藤さんチーム。後で聴いたら発表者は学部2年生だそうだ。作業のためのBGMとしては、好きでも嫌いでもない曲が適している。そこで「とても好き」な曲を除くことで、集中力を高める曲を推薦する。再生した曲に対してユーザがフィードバックを入力し、それに基づいて次の曲を推薦する。再生される曲は自動的にサビの部分で終わるが、「もっと聴く」あるいは「スキップ」ボタンで継続再生あるいは中断させることができ、これを嗜好として使う。また、キーボード・マウス・Webアクセスのイベント頻度のBoFのn-gramを使ってユーザの集中度を推定する。また、ほどほどに好きな曲の中で、集中している場合には直前の曲とできるだけ似た曲を、集中していない場合には似ていない曲を選曲する。評価はシミュレーションだが、きっちりやっている印象。

15:15~ オーガナイズドセッション
(4) 統計的文法理論と構成的意味論に基づく音楽理解の計算モデル(JAISTほか)
東条先生。
・4つの問い。
        音楽を音楽と分かりますか?
        意味を伝えるって何が伝わるのですか?
        音楽に文法はありますか?
        音楽に文法を仮定すると何かいいことありますか?
・どこまでが音楽か
        ダーウィンによる音楽に関するquote
        音楽のカンブリア爆発(17C~)
        そこから現代は3つに分かれる(前衛音楽・ジャズなど/クラシック/ポップス)
・意味が伝わるとは
・音楽に文法はあるか
        FSAとCFG
        カデンツには文法がある→シェンカー理論、GTTM
・音楽に文法を仮定すると
        GTTMの木構造を中心に考える

このあと東条先生、平田先生、麻生英樹さんの鼎談。

(5) deepGTTM-II: ディープラーニングに基づく拍節構造分析器(京大)
浜中先生。最初にGTTMの歴史とアプリケーション(予測ピアノ、メロディモーフィング)。アプリに利用するためにはタイムスパン木を手作業で創らなければならない。自動分析をするためのシステムATTAなど。
これまでの解析器の実装は、ナイーブなGTTMの実装と、確率に基づくものの2つがあった。
GTTMへのdeep learningの導入。拍節構造の抽出に使う。
大量の学習データが必要。プレトレーニングにはWebから集めた15000曲、ファインチューニングには自分でラベルを付けた300曲を利用する。
deepGTTM-II。入力は各音符のオンセット・オフセットとベロシティ・ピッチ・グルーピング構造を使い、出力は拍節構造の選好ルール(を使うかどうか?)。

17:00~ 音響信号処理・プログラミング環境
(6) 調・コード・音高・スペクトログラムの階層ベイズモデルに基づく多重音解析(京大)
吉井研。自動採譜のための音高の解析。コードがわかれば音高に対して制約になるので、コードとコード校正音と音高を同時に推定する。正解の音高の前後にずれたり挿入したりする誤りが減少。枠組みは吉井研なのでゴリゴリのベイジアンで、調→コード進行→ピアノロール→スペクトログラムという生成モデル。ピアノロール→スペクトログラムはNMF(ただしアクティベーションは2値)。コード進行は調に依存したHMM。だいぶがんばっているが、音高推定のF値でみると提案手法の導入による性能向上はわずか。

(7) 歌声F0軌跡に対する音符推定のためのベイジアン準ビート同期HMM(京大)
吉井研。歌声F0軌跡とビート位置の情報を入れると音符列が出てくる解析器。そこでオンセットとビート時刻のずれと、音符音高とF0のずれをそれぞれモデル化する。モデル化はHMMだが、音高とオンセット変動と周波数変動を別なモデルで生成し、それぞれのモデルがビート区間で同期して遷移する(といいつつオンセット変動は1つの分布だけで時間的に変動しない)。周波数変動はコーシー分布でモデル化し、幅をΔF0に比例させる。モデル学習はMCMC。単純な多数決による音符推定より性能向上。

(8) DJCoder: DJシステムと密に連携したプログラミング環境(明治大・産総研)
DJプレイでB2B(複数人でのDJプレイ)があるが、それと同じようなことを一人で行うにはどうするか。この提案では、個々のDJプレイ(ミックス)をプログラムで表し、その操作を人間がやる。また、DJがリアルタイムでプログラムを組み替えることができる。提案システムはJavaScriptによるDJシステムTraktor Proに重ねる形で実現している。APIの説明があったが、結構大変そうだなあ。

7月31日 音楽情報科学研究会@東京理科大 野田キャンパス

9:00 特別企画 情報処理学会誌「音楽を軸に広がる情報科学」特集連携講演
「情報処理」2016年6号に掲載された特集の内容の紹介。
・音楽と音声情報処理
SLPの温泉から駆けつけた齋藤先生@東大。音声情報処理と音楽情報処理の各種技術を対応させる形で紹介。「感情推定⇔演奏者推定」「話者適応⇔演奏表情付け」という対応がちょっと目新しい。

・音楽とコンテンツ生成
深山さん@産総研。各種コンテンツ自動生成技術(特に自動作曲)。自動作曲の黎明期から最近の成果まで。ルールベース→事例ベース→機械学習ベースの流れ。今後は音楽音響信号の分析結果を使うものが出てくるだろうという予測。

・音楽と機械学習
吉井先生。機械学習が流行しているが、音楽情報処理分野は感度が低い。音楽分野での機械学習動向を知るために、今年のISMIRの発表をLDAで分析してみた。トピックの大きいところから「アノテーション」「特徴量」「ディープラーニング」「楽譜データ」「評価」「テンポ・ビート」「歌唱表現」「ドラム」「音楽データ」「メロディ分離」「アルゴリズム・確率モデル」「ユーザスタディ」「セグメンテーション・インド音楽」「メロディ」「ネットワーク」「推薦」「音楽サービス」「判断・脳」「音源分離・機械学習」。

・音楽と情報検索
帆足さん。
音楽情報の研究動向:「音響特徴ベース→メタ情報ベース→多様化」
その背景:ダウンロード型からストリーミング型へ(厳密な曲の情報を検索→今聴きたい曲、体験、発見重視の検索へ)
ストリーミングサービスでの検索方法:同一テーマの楽曲を集めたチャンネルを選択。プレイリスト作成の少なくとも一部は人手だと思われる。
研究テーマとして「チャンネルの自動生成」「ユーザの状況に応じて明確な検索クエリなしに検索する」「音楽ストリームの評価」など

・音楽とヴィジュアライゼーション
伊藤先生@お茶大。音楽情報の可視化の意義。典型例としては、楽曲・演奏者の分布の可視化と、特定楽曲の進行や構造の可視化がある。
音楽情報の可視化技術の分類。「1曲 vs. 複数曲」「専門家対象 vs. 一般対象」「楽譜 vs. 音響信号」「表現形式」「対話処理の有無」等。
可視化システムの例。「MusiCube:音楽推薦結果の可視化」「Colorscore: クラシック音楽の楽譜の彩色・ようやく表示」
今後の展望:音楽定額配信時代のインタフェース、ビジュアルアプリ上での実相、アナログ時代の音楽鑑賞手段の復元など。

・音楽とWeb
濱崎さん@産総研。Webによって、音楽の発信・聴取・情報源・コミュニケーション手段などが大きく変わった。音楽とWebの融合研究:ソーシャルデータ基盤としてのWeb(ソーシャルタグやツイート分析など)、サービス基盤としてのWeb(ユーザ参加、成果発信)。
Webネイティブな音楽(典型的にはニコ動におけるVOCALOID音楽)
研究紹介:Songrium/Songrium3D/バブルプレーヤ/RelayPlay

・音楽とHCI
竹川先生@はこだて。インタフェースとしての楽器。楽曲制作→練習→披露→視聴の各フェーズで研究がある。
編曲作曲支援:Max/MSP, UPIC, Hyperscore, Garageband etc.
楽器制作:古典楽器の拡張、新しいデザインの楽器(NIMEで提案されるものなど)
フィジカルコンピューティングからデジタル・ファブリケーション
練習支援、補助からの離脱方法

・音楽とロボット
水本さん@HRI-JP。
音楽とロボットの研究の特徴:身体性、非言語コミュニケーション、参加型エンタテイメント。
ロボットの音楽表現(楽器演奏/舞踊/歌唱)×人間とのインタラクション(あり/なし)
共演者ロボットの問題。同期レベル、時間的制約、雑音への頑健性
共演者の引き込みを考慮したタイミングの同期
 結合振動子系による合奏のモデル化
テルミン演奏ロボット

・音楽と脳科学
寺島さん@NTT。
脳科学と情報科学:脳活動の解析技術、脳活動の理解モデルとして
脳活動の無仮説解析:様々な音を聞かせ、音×脳のボクセルの脳活動の行列を作り、NMFで分析。
聴覚野の階層性と深層学習
学習メカニズムは視覚野と共通

11:00 新博士によるパネルディスカッションV「新博士さんいらっしゃい!」

13:45 楽譜
(11) 視線情報を活用した楽譜追跡システムの構築(はこだて未来大)
楽譜の追跡。従来の演奏情報だけでなく、視線情報とヒューリスティクスを導入し、精度を向上させる。最初に視線のぶれを平滑化し、音符と対応させる。打鍵シーケンスから推定した複数の演奏位置候補について、視線に近くて視線より前の位置に確定する。誤打鍵から復帰する場合については、ヒューリスティックなルールをいくつか用意して対応。視線情報の導入によって、位置の同定率は約70%から約96%ぐらいに向上。

(12) 頷き動作による自動譜めくりシステムでの合図とリズムノリの判別(木更津高専・明治大学)
頷きをトリガとする自動譜めくり。Webカメラ画像に対してHaar-like特徴量で顔を検出し、そこから鼻を抽出してトラッキングする。鼻の位置を特徴量としてジェスチャ(頷き)をHMMで認識する。高精度化のために、頷きとテンポに合わせて頭を動かす動作(リズムノリ)を識別する。単純な閾値で判別すると2/10で取りこぼしがある。

(17) 演奏者の楽譜の休止区間における自動伴奏のテンポ制御(千葉大学・木更津高専・明治大学)
自動伴奏システムEurydiceのテンポ制御。人間が演奏せず伴奏だけがある区間(休止区間)では、休止区間直前のテンポを連続する使用だが、休止区間中でもテンポを演奏者が制御するために、専用のキー(タップキー)をタップすることで音を出さずにテンポを指示する。タップキーとしては、通常のキーボードで演奏に使用しないキーを割り当てる(当該キーが押された場合にはPCから音を出さない)。タップキーの場所とミスタッチのしやすさを調べたところ、端のキーがもっとも推しやすいことがわかったので、それをタップキーとして使う。タップは途中で中断しても良い。

typodupeerror

普通のやつらの下を行け -- バッドノウハウ専門家

読み込み中...