2015/6/4 A3 foresight program special interest workshop | aitoの日記

aitoの日記： 2015/6/4 A3 foresight program special interest workshop 0

日記 by aito 2015年06月05日 12時26分

9:00-10:40 Session I: Multimedia information exchange over the network
9:00-9:25
Jorge TREVINO (Tohoku University)
Stereo encoding of spatial sound information for ultra-realistic internet broadcasts
相変わらず早口なホルヘ君。ステレオ再生される音源を2次元アンビソニックスで符号化。単純なステレオ符号化に比べ、さまざまな信号処理が可能に。

9:25-9:50
Shuichi Sakamoto, Arif Wicaksono, Cesar Salvador, Jorge Trevino and Yôiti Suzuki
(Tohoku University)
Compression method of spherical microphone array signals
球形マイクロホンアレイSENZI(252ch)の信号を圧縮。手法はPCA。30chぐらいまで縮む。

9:50-10:15
Yukio Iwaya, Shoya Yarimizu, Makoto Otani, Takao Tsuchiya (Tohoku Gakuin University)
System evaluation of cloud auditory display in the Internet between China and Japan
クラウドベース仮想聴覚ディスプレイ。サーバで音源にHRTFを畳み込み、Android端末で再生する。端末内のジャイロで頭部運動を検出し、それに追随する。端末はWifiで通信し、サーバとの通信はUDP。頭部運動に対するフィードバックがあるので、レイテンシが問題になる。そこで、通信がLAN内/国内/国外の場合について、レイテンシを計測。LAN内では反応時間は100ms以下。国内通信では、光ファイバだとLANと同程度のレイテンシ。日中間だとレイテンシは短くて1.5sぐら

10:15-10:40
Chengxiang Yin, Xiang Xie (Beijing Institute of Technology)
Advertising system based on cloud computing and audio watermarking
店内で流れる音楽に透かしを入れて宣伝をする。新しくないような・・・。透かしの抽出をクラウドでやるようだ。
発表しているのは学生さんだと思うが、やたらビジネス然としたプレゼン。技術的な話はほとんどなかった。

10:40-11:00 Coffee break

11:00-11:50 Session II: Technologies for enhanced communications
11:00-11:25
Yuki IGARASHI, Takashi NOSE, Yusuke YAMADA (Tohoku University)
Speaker-Adapted Realtime Talking Avatar on the Internet Using Kinect and Voice Conversion
うちでアドバンス創造工学をやっていた五十嵐くんと、うちの4年生の山田君。ミクさんがあなたのアバターになってビデオ通話。大胆不敵にもその場でデモを敢行。完ぺきとはいかなかったが、まあまあ動いていたところがえらい。

11:25-11:50
Yuki SAITO, Takashi NOSE, Takahiro SHINOZAKI, Akinori ITO (Tohoku University)
Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting
匿名通話のために、ビデオ通話の話者を別な人の顔にすげ替える技術。Kinectが返すAnimation UnitパラメータをNNで顔画像（のPCA圧縮した奴）に変換する。

11:50-13:30 Lunch

13:30-15:10 Session III: Machine learning and signal processing
13:30-13:55
Jeongsoo Park (Seoul National University)
Harmonic/Percussive Sound Separation Using Non-negative Matrix Factorization based on Anisotripic Characteristics in Spectrogram
調波音と打楽器音の分離。従来法では、調波音が時間方向になめらかで周波数方向に急峻、打楽器音はその逆であることを利用している。提案法では、入力音が調波音と打楽器音の重畳でできていて、それぞれが周波数方向と時間方向にそれぞれスパースであることを利用し、それぞれのスパースネスを制約としたNMFで分解する。

13:55-14:20
Dooyong Sung (Seoul National University)
Effects of onset asynchrony on loudness discrimination of concurrent pure tones
半音ずつ上がる楽器音を、互いに少し重なるように鳴らして聞くと、連続して聞いた時には特に何も起きないが、1音だけ切り出して聞くと直前の音の残響が非常は成分となって濁って聞こえる。音として非調波成分が混ざっているにもかかわらず、連続して聞いた時に不協和音が聞こえない(あるいは気にならない)のはなぜか。神経レベル、知覚レベルなどからの説明を試みている。実験としては、立ち上がり時間のずれた2純音と単独の純音を聞かせ、前後の音が同じに聞こえるときの前の2純音の音の大きさと時間ずれの関係を見ている。時間がずれるほど、音の大きさ知覚のしきい値が下がる。それはいわゆるマスキングじゃないのかという突っ込みが入った。

14:20-14:45
Kisoo Kwon (Seoul National University)
Discriminative Bases Using Cross-Reconstruction Error with Application to the Target Source Separation
音源分離にNMFを使うときに，再構成時の誤りを考慮するDiscriminative NMFを提案．2音を分離するときには，それぞれの音を表現する基底を別々に表現し，片方の音の基底でもう片方の音を再構成した時には誤差が大きくなるようにする．

14:45-15:10
Anhao Xing (Institute of Acoustics, Chinese Academy of Sciences)
Redundancy removing on deep neural networks
DNNの計算を早くするため，コネクションやニューロンを間引きする．重みの小さいコネクションを間引く方法はOBD(Optimum Brain Damage)というのか．90%のコネクションを間引いてもそれほど認識性能には影響ない．同様に，ニューロンを間引く方法，コネクション重みをVQで量子化して計算量を低減する方法について検討．

15:10-15:30 Coffee break
15:30-16:45 Session IV: Speech processing
15:30-15:55
Mengzhe Chen (Institute of Acoustics, Chinese Academy of Sciences)
Improved deep neural networks based on Correlation-Generated Targets for Mandarin
LVCSR systems
似た音素に対して，相関を考慮してNNの学習をする．1999年に提案された方法を今風のタスクで試してみたということらしい．学習の際に，比較的少量のデータに対して各状態の事後確率を計算して，その壮観で状態の近さを測る．NNの学習時に，当該クラスの出力ユニットの値を１にするだけでなく，相関のあるクラスにも相関に応じた値を与えるようだ．ハイパーパラメータを調整してちょっぴり改善．

15:55-16:20
Joun Yeop Lee (Seoul National University)
Relevance vector regression based speaker adaptation for HMM-based expressive TTS
MLLRの代わりにRelevance Vector Regression (RVR)を使おうというのだが，式が小さくて読めない．非線形回帰の一種のようだ．さらにCMLLRと組み合わせた方法(CRVR)で少し改善．

16:20-16:45
Yongwei Li, Yasuhiro Hamada, Masato Akagi (JAIST)
Analysis of glottal source waves for emotional speech using ARX-LF model
CASの李先生の弟だそうだ（JAIST在学中）．感情音声の声帯音源波の推定．声帯音源波をLFモデルで表し（音源波を時間領域でパラメータ化したもの），声道フィルタはARXモデルでモデル化．音源波形の推定と声道パラメータの推定を繰り返して精度を上げる．9種類の感情×3通りの強さで役者が発話したものを分析．感情に応じて音源波の形はだいぶ変わっていたが，スペクトルにすると違いは微妙．

aitoの日記： 2015/6/4 A3 foresight program special interest workshop 0

2015/6/4 A3 foresight program special interest workshop More ログイン

スラド