パスワードを忘れた? アカウント作成

aitoさんのトモダチの日記みんなの日記も見てね。 アカウントを作成して、スラドのモデレーションと日記の輪に参加しよう。

13180422 journal
日記

aitoの日記: 2017/3/7 EMM研究会@宮古島 2日目

日記 by aito

3月7日(火) 午前? 一般 座長:薗田 光太郎(長崎大) 09:25 - 10:40
(13) 09:25-09:50
PDCAサイクルに基づく健康メディアに対するセルフケア法の提案
○千種康民・山崎祥行(東京工科大)
個人の健康管理をPDCAサイクルの手法でやりましょうと言う提案。事例紹介などもあったのだが、PDCAサイクルのおかげなのかどうか判然としない。

(14) 09:50-10:15
バイノーラル音響コンテンツの臨場感向上に向けたバイオフィードバック応用について
○長嶋洋一(静岡文化芸術大)
枕は伊良部島のマルヨシ食堂でジャンボカツカレーを食った話。食いすぎて気持ち悪かった話から、内観とバイオフィードバックの話。きんでんセンサーとジェスチャー認識によるリハビリシステム。
大学で学生が制作したメディアアートの紹介。ダミーヘッドの口にLeapMotionをつけて、前にある手の動きから母音をフォルマント合成して、それをダミーヘッドの周りにあるスピーカーで再生。
最終的には、音情報をバイノーラル提示したときに、そのときの情動を脳波などで観測し、それをバイノーラル音にフィードバックする(たとえば情動が大きくなる方向に)ということらしい。

(15) 10:15-10:40
非負値行列因子分解を用いた音楽電子透かし法の音高推定の改善 [変更あり]
○村田晴美(中京大)・荻原昭夫(近畿大)
いつもの。二重奏に対するNMFを使った電子透かしについて検討していたが、抽出時に埋め込み時の音高推定情報が必要。そこで、音高推定を改善することにより、情報抽出を改善する。具体的には、従来は発音時刻順に情報を埋めていたが、埋め込み操作によって信号が変化することによって発音時刻が変わることがあるので、発音時刻ではなく音高が低い順に埋め込みを行う。

10:40-10:50 休憩 ( 10分 )
3月7日(火) 午前? 一般 座長: 伊藤 彰則(東北大) 10:50 - 11:40
(16) 10:50-11:40
[招待講演]球状マイクロホンアレイを用いたバイノーラル3次元音空間創成手法
○坂本修一・サルバドル セザル・トレビーニョ ホルヘ・鈴木陽一(東北大)
・音情報の特徴について。「雰囲気」などの再現には音の空間的情報が重要。
・音空間の収音と再生法。
        再生:ステレオフォニック、聴取点音圧制御、音場合成
        収音:サラウンド収音、アンビソニックマイクロフォン
・球状マイクロフォンアレイを使ったバイノーラル音空間収音再生
        HRTFモデル化法:各マイクロフォン入力に重み付けして加算することでHRTFを模擬する
        収音信号モデル化法:HRTFの測定位置に配置したバーチャル音源おn駆動信号をマイクロフォン入力から推定する
        どちらの手法がよいかはマイクロフォン数とHRTF測定点数の大小関係によって決まる
・SENZIシステム
・水平面での距離によるHRTFへの影響のモデル化

11:40-13:00 昼食 ( 80分 ) 3月7日(火) 午後? 一般 座長: 岩村 惠市(東京理科大) 13:00 - 14:15
(17) 13:00-13:25
画像入力型情報検索システムにおける利用者の位置履歴の保護
○藤井宏次朗・中村和晃・新田直子・馬場口 登(阪大)
画像による場所の情報の検索(スポット検索)タスクで、サーバ側で検索結果のスポットがわからないようにする。具体的には、画像検索の特徴量をクライアント側で線形部分空間に射影し、それをサーバに送ることで意図的に認識精度を落とし、サーバで認識された複数候補に対してクライアント側で再認識することで結果を確定する。また、複数回の検索結果からも現在位置が推測されにくいように認識結果候補を調整する。この方法では大まかな位置の推測されやすさと詳細な位置の推測されやすさにトレードオフがあるようだ。

(18) 13:25-13:50
幾何学的錯視による疑似力覚の付与を目指したテクスチャ提示方式に関する一検討
○小野里勇希・宮本龍介(明大)
クッションなどを押したときに、プロジェクションマッピングによって物体が凹んだ画像を物体に投影し、物体が凹んだ感覚を想起させる。質疑でだいぶ批判されていた。

(19) 13:50-14:15
共通鍵暗号とプログラムのハッシュ値によるファイルアクセス制御を用いた機密情報保護
○市川 実・宇田隆哉(東京工科大)
マルウェアによるファイルアクセスを防ぐために、OSを仮想マシン上で稼働させ、プログラム単位でファイルアクセス権を設定する。またファイルをすべて暗号化し、仮想マシンが暗号化・復号化を行う。

13180419 journal
日記

aitoの日記: 2017/3/6 EMM研究会@宮古島 1日目

日記 by aito

(1) 14:30-15:30
[ポスター講演]KAZE特徴量を導入した電子透かし法の検討
○深田有花・川村正樹(山口大)
KAZEで特徴点を求め、特徴点の周りに(特徴点によって決まるスケールで)透かしを埋め込む。透かしの中にマーカ情報を入れ、取り出しがどの程度うまく行っているかを推定し、最終的に複数の特徴点から取り出した透かしで多数決を行う。SIFTより(スケーリング変換以外は)頑健。

(2) 14:30-15:30
[ポスター講演]多元LDPC符号を用いた電子透かし法とJPEG圧縮に対する評価
○佐伯豊彦・野崎隆之・川村正樹(山口大)
GF(2^m)を利用するLDPC。従来研究ではmが大きいときは性能が高くなったので、JPEGへの電子透かしに応用してみたが、GF(2)の場合よりよくならなかった。

(3) 14:30-15:30
[ポスター講演]3Dプリンター造形物への情報埋め込みと近赤外線反射像による読み 出し技術
○中村耕介・鈴木雅洋・高沢渓吾(神奈川工科大)・高嶋洋一(NTT)・鳥井秀幸・上平員丈(神奈川工科大)
一連の3Dプリント物への情報埋め込み。今回は黄色い本体に白いマーカを埋め込み、近赤外光を当てて近赤外カメラで検出。定量的評価はない。

(4) 14:30-15:30
[ポスター講演]画像特徴量に基づく同期回復を用いたDCT-OFDM型電子透かし方式
○市岡由偉・小嶋徹也(東京高専)
AKAZEで特徴点を数個求め、それを埋め込みブロック境界として画像をブロック分割して情報を埋め込む。埋め込みはDCTの低周波成分で、複数の境界で埋め込むときに異なる風波数帯域に情報を埋める。取り出し時には、検出した特徴点をブロック境界の候補として分割してみて、うまく取り出せたものを利用する。

(5) 14:30-15:30
[ポスター講演]継続認証実現に向けた歩行中の心拍データ系列を用いた個人認証
○吉田崇晃(阪大)・河野和宏(関西大)・馬場口 登(阪大)
スマートバンドから得られる心拍データを使った個人認証。20分ぐらい歩いたときの心拍数の統計量を使う。EERは17%ぐらいで低くはないが、ほかのモダリティと併用することを検討しているそうだ。運動が同じでないと認証は難しいだろうなあ。

15:30-15:40 休憩 ( 10分 ) 3月6日(月) 午後? ポスターセッション(後半) 座長: 岩田 基(阪府大) 15:40 - 16:40
(6) 15:40-16:40
[ポスター講演]攻撃耐性向上のためのブロックスクランブル暗号化法とその鍵管理
○小笠原剛史・今泉祥子(千葉大)・貴家仁志 (首都大東京)
ブロックスクランブル暗号化で、複数の画像を同時にスクランブルすることでスクランブル強度を高める。

(7) 15:40-16:40
[ポスター講演]ヘッドマウントディスプレイを用いたARによる電子書籍インタフェイスの開発
○中原 匠・日置尋久(京大)
紙のノートにマーカを書いておいて、その上にARで電子書籍のコンテンツを重畳したインタフェース。紙を物理的にめくることで電子書籍のページがめくれる。ページ数が多い書籍を使うためには物理的なノートも厚くなければならないのが欠点。

(8) 15:40-16:40
[ポスター講演]相対テキスト長パターンに基づくPDF文書に対する電子透かし法
○岩本拓也・川村正樹(山口大)
PDFへのステガノグラフィ。文字ブロック3つの長さの大小関係の組み合わせのパターンに情報を埋める。情報を埋め込む場合には、すでにある文字ブロックを分割することで対応。

(9) 15:40-16:40
[ポスター講演]音割符を用いた音響電子透かしシステムの一検討
○野口 洲・薗田光太郎・喜安千弥(長崎大)
カバー信号と、それに組み合わせる別な信号(タリー信号)を用意し、2つを混ぜた信号に情報を埋めた上で、カバー信号だけを取り出して送信する。タリー信号がないと情報が読み出せないので、タリー信号を科技のように使える。埋め込み手法はエコー拡散。しかし実験結果からは、適当な信号をタリーとして使ってもそこそこ情報が抽出できてしまう。

(10) 15:40-16:40
[ポスター講演]完全相補系列系を用いた画像電子透かしにおけるホスト信号近似法の性質について
○加藤 翔・小嶋徹也(東京高専)
16:40-17:00 休憩 ( 20分 )
完全相補系列(CCC)系の信号の組み合わせだけから画像を生成するという手法(1月のEMM研で聞いた)。今回は、CCCの長さと近似画像のPSNR、透かしの検出精度(BER)を比較した。長いCCCの方が、近似精度は悪いがBERは小さい。

3月6日(月) 午後? 一般 座長: 今泉 祥子(千葉大) 17:00 - 17:50
(11) 17:00-17:25
4K用カメラ用フォーカスアシストの開発 ~ 暗照明条件でも高ノイズ耐性を実現 ~
○合志清一(工学院大)
4kカメラの場合、マニュアルでフォーカスをあわせることが困難。しかし演出としてフォーカス合わせを行うのでオートフォーカスをつけることができない。またアンシャープマスクなどの信号処理では雑音が出やすい。提案法では元画像のエッジ関数に非線形関数を作用させてから元画像に加える。従来法と比較して、暗い部分の雑音がより抑えられている。

(12) 17:25-17:50
多感覚コンテンツの高次感性知覚に音情報から生成した振動情報が及ぼす増強効果 [変更あり]
○崔 正烈・柳生寛幸・坂本修一・行場次朗・鈴木陽一(東北大)
VRコンテンツを前景(迫真性)と背景(臨場感)に基づいて評価する。画像・音声に振動を加えて迫真性と臨場感を制御するが、実際の「場」について振動を観測することは難しいので、観測された音情報から振動を生成して観測者に提示する。観測者はスライダーで連続的に迫真性または臨場感を評価した。その結果、音響信号から生成した振動はオリジナルの振動を加えたものと同程度の臨場感を与えることがわかった。迫真性はオリジナルよりも高くなる。また、振動強度が大きくなると、迫真性はいったん大きくなった後で下がる傾向にある。

13173417 journal
日記

aitoの日記: 2017/2/28 音楽情報科学研究会2日目

日記 by aito

2月28日(火)

■音楽音響分析[9:00-10:30]
(10)ソプラノ歌手の歌声における母音知覚—基本周波数および声楽経験の影響—
   遠藤 希美,川原 繁人,皆川 泰代
音声の基本周波数が高くなると母音の聴き取りは悪くなるが、それに聴取者の声楽経験がどう関係するのかを調べた。440Hzと880Hzでは880Hzのほうが聴き取りは悪いが、声楽経験の有無による効果はまちまち。声楽経験がある方が反応時間は長い。

(11)ニューラルネットワークによる楽器の音色の識別
   山田 雅之,守田 了
楽器音のスペクトルから基本周波数を求め、基本周波数成分と倍音成分とのパワー比を4ビットに量子化した2進パターンを入力としてNNを学習。使用データは少ない。なんでこんな方法を使うのか理解できない。

(12)歌声の習熟度に関連する周波数特性に基づく音響特徴量の特定個人の長期的変化
   吉田 祥,香山 瑞恵,池田 京子,山下 泰樹,伊東 一典,浅沼 和志
声楽練習の習熟度の客観評価指標を得るのが目標。主にsinger's formantに注目していて、singer's formant関連の周波数帯域のパワー比(SFR)、LPC分析した時のsinger's formant相当のピークのQ値、および2凸(2次LPCで1番目と2番目の谷と山のレベル差)を使う。指導前の歌声と指導1年後の歌声、およびプロの通常及び初心者っぽい音声を使って比較。

(13)コード進行に注目したJ-POP音楽の可視化
   上原 美咲,伊藤 貴之,高塚 正浩
楽曲検索を目的とした楽曲の可視化。楽曲間の類似度(MIRtoolboxを利用)に基づいて楽曲を2次元で表示したものと、楽曲の属性(作曲者、コード進行など)をGeodesicSOMで2次元で表現したものの2面を使う。コード進行はWebサイトから取得。評価が難しい研究だと思うが、がんばって有効性を評価している。

■音楽制作[10:40-11:50]
(14)欧露ツアー2016報告
   長嶋 洋一
長嶋先生のヨーロッパ漫遊記。
Tempora international meeting 2016(ボルドー)。ラズパイを使った手作り楽器のパフォーマンスなど。
ICMC2016(ユトレヒト)。
エカテリンブルグでの講演→列車で25時間→モスクワで講演。
ICEC2016(ウィーン)。

(15)WebRTCを用いたDAW用遠隔指導支援システムの開発
   野原 祐一,辻 靖彦
イントロの途中でPCが電池切れで落ちるというハプニング。内容はDAW利用の遠隔指導。WebRTC(ビデオチャットのW3C規格)を利用する。SkypeやTeamViewerではオーディオコーデックが低品質すぎて使えないので、ブラウザベースでシステムを自作。

(16)原曲スコアの音楽特徴量に基づくピアノアレンジ
   高森 啓史,佐藤 晴紀,中塚 貴之,森島 繁生
楽曲の自動ピアノアレンジ譜面生成。メロディーライン、リズム、コード進行を原曲と同じにしながら、音域を広くとって音の厚みを考慮したアレンジを行う。原曲スコアを一度音楽特徴量(メロディ、リズム、厚み)に変換してからピアノ譜を生成する。右手パートはメロディラインに適宜和音を加え、左手パートはコードに合わせて伴奏データベースから選択する。

■音楽自動生成[13:00-14:30]
(17)動画特徴量からの印象推定に基づく動画BGMの自動素材選出
   清水 柚里奈,菅野 沙也,伊藤 貴之,嵯峨山 茂樹,高塚 正浩
ワンシーンの動画に対して適切なBGMを自動生成する。動画から特徴量を取り出し、そこから事前に用意したBGM素材(コード進行等)を選んで楽曲を生成する。特徴量としては、動画の低水準特徴からからSOMを使って生成した印象値、メタデータのword2vecから生成した印象値などを使う。動画から推定した印象値に最も近い音色とコード進行を選び、動画の長さにあったテンポで曲を生成する。動画の動きについては、画面全体の動きではなく対象の動きだけを使った方が高評価。

(18)2階マルコフ過程を用いたHMMによるコード付与手法の提案
   森 篤史,新井 イスマイル
HMMを使ったコード付与は、状態をコード、出力ベクトルを小節内の音の長さの総和として、与えられたメロディに対してビタビアルゴリズムで状態列(コード列)を決定する。これに対して提案法では、2コード前まで考慮するために2次のマルコフモデル(2つのコードの組み合わせを状態とする)を使う。人間が付与したコードよりは主観評価値が低いが、評価者にとって初見の曲だけで評価すると人手と同程度の品質。

(19)秩序と混沌の度合いを考慮したメロディー生成に対する数理計画法の適用
   村上 智之,森口 聡子
数理的な方法によってメロディ生成を行うのだが(行列不等式を解いて、どの音が使われるか調べる)、よくわからなかった。単純な方法では一定のメロディが生成されてしまうので、出力がほどほどカオティックになるようにする(?)。

(20)予測変換のアイデアを用いた作曲支援システムの提案
   山下 峻,藍 圭介,エバンズ ベンジャミン,棟方 渚,小野 哲雄
途中までメロディを作曲した時に、それに続くメロディ候補を提示してくれるシステム。POBoxの考え方と同じ。あらかじめ2小節の相対化されたメロディの組のデータベースを保持しておき、入力メロディと最も類似したものをデータベースからとってきて後続メロディを提示する。

■音楽練習支援[14:40-16:10]
(21)楽譜簡略化と自動補完伴奏によるピアノ演奏練習支援システム
   福田 翼,中村 栄太,糸山 克寿,吉井 和佳
ピアノ練習のために、既存の楽譜を簡略化して音符を減らす。同時に、演奏した時に簡略化前の音を自動的に保管して流す。簡略化はルールベース。演奏時の音符の補完は自動伴奏システムEurydiceを使う。さらに、これまでの演奏者の演奏データ(どのようなところでどういうミスをしたか)によって、どの程度の簡略化をするかを自動的に決定する。演奏誤り予測の交差検定による性能は0.52。

(22)モバイル端末のブラウザ間で実現する即興的音楽演奏の教育支援アプリケーション
   横山 裕,岩井 将行
ブラウザベースの簡単なキーボード。PCに音源、タブレットにキーボードを表示して連携することができる。また、スケールを設定すると特定の鍵盤だけを有効にすることができて、どれを押してもそれなりの演奏になるようにできる。教育支援というのは言い過ぎのように思うが。

(23)最適な多視点カメラワークを自動生成する遠隔ピアノレッスン支援システムの設計と実装
   松井 遼太,竹川 佳成,平田 圭二
対面環境でのピアノレッスンに近い環境を目指した遠隔ピアノレッスンシステム。鍵盤共有、楽譜共有、学習者の映像の送信などの機能がある。演奏者を7台のカメラで撮影しているが、現在の演奏・過去のミスタッチ・楽曲構造などを考慮して最適なカメラワークを自動的に行う。最適視点予測はNNによる。正解率は68%。

(24)Strummer:インタラクティブなギターコード練習システム
   有賀 竣哉,後藤 真孝,矢谷 浩司
ギターコードの「重要性」「練習すべき優先度」を定め、それが低いコードからなる曲が練習できるシステム。Chord Primariness(CP)はコードを押さえる難しさと出現頻度からなる指標(簡単で頻出するコードが重要)。また、コード遷移の難しさを推定するモデル(線形回帰)を学習。また、Song Primariness(SP)は、コードの難易度を考慮した時の楽曲の「練習すべき優先度」を表す。これをもとに、練習システムStrummerを作成した。SPに基づいて練習曲を提示し、実際にギターを弾いた音からコードの正しさを判定する。

■楽曲検索・推薦[16:20-17:30]
(25)音響特徴と歌詞に基づく楽曲検索システム
   金津 達也,大坪 正和,吉田 香
歌詞特徴と音響特徴の重要度を変えられる楽曲検索。音響特徴はMFCCで、16個のクラスタを作って、曲間の距離はEMD。歌詞特徴量はLDAで距離は対象KL divergence。実験の結果、MFCCのみの結果よりも提案システムの方が適合率が低かった(LDAによる検索精度が低いため)。

(26)機械学習を利用したDTM音色検索フィルタの提案と音色づくり支援システムへの適用
   齋藤 創,大場 みち子
感性語を使った音色の検索で、人によって異なる感性語から同じ音色を検索できるように、感性語から音響特徴量への写像を機械学習によって求める。SVMとアドホックな変換式を使う。

(27)複数ユーザー間での楽曲推薦を実現するミュージックプレイヤー:楽曲類似度の導入と有効性の検証
   鈴木 潤一,北原 鉄朗
複数人がそれぞれデバイス内に持っている楽曲データを推薦するシステム。自分のデバイスについては再生回数をもとに期待度を計算する。他人のデバイスについては、すでに期待度が計算されている楽曲との音響類似度に基づいて期待度を計算する。また、last.fmによるアーティスト類似度も利用する。

この後、北原主査の退任あいさつとセレモニー。

13172698 journal
日記

aitoの日記: 2017/2/27 音楽情報科学研究会1日目

日記 by aito

■演奏・歌唱支援[13:00-14:10]
(1) 独奏認識誤りに頑健な音響入力伴奏システム
   足立 亜里紗,堀内 靖雄,黒岩 眞吾
自動伴奏のための音符認識で、同じ音高の音符が連続する場合の問題。検出漏れ・過検出の場合に、演奏者がおおむね伴奏に合わせて演奏しているという仮定の下で演奏が破たんしないようにする。演奏者の音符が来るべき時間から前後に信頼度を設定し、それを使って未検出の音符を仮定したり検出した音符を無視したりする。

(2) DPマッチングのコストに視線情報を反映させた楽譜追跡手法の提案
   寺崎 栞里,竹川 佳成,平田 圭二
自動伴奏のための楽譜追跡。打鍵情報だけでなく楽譜を見る視線を使う。従来は打鍵情報による複数の演奏箇所候補の中から視線を使って最終候補を選んでいた。今回は候補の検出自体に視線情報を入れる。注目する音符とその時の視線をモデル化する「視線モデル」(HMM)を使い、打鍵情報と視線尤度の両方を考慮してDPマッチングを行う。誤打鍵があったときの追跡に有効。推定制度は従来法と同じくらい。視線モデルの精度が低いと全体のパフォーマンスが落ちる。

(3) スマートタンバリン:音と光で場を盛り上げるカラオケ支援システム
   栗原 拓也,横溝 有希子,竹腰 美夏,馬場 哲晃,北原 鉄朗
カラオケで暇な聞き手のためにタンバリンの譜面を生成表示してタンバリン演奏の判定を行うシステムを従来提案していた。今回は光るタンバリンを3Dプリンタで自作。つかみ方で音量調節ができる。またタンバリン譜をより簡単にすると同時に、参加率(演奏参加度)に応じてフィードバックを表示する。実際にカラオケ屋で使ってみて評価した。評価が低くはなかったが、スマートタンバリン自体はそれほど使われなかった模様。

■歌声の分析と合成[14:20-15:30]
(4) Experiments in Making VOCALOID Synthesis More Human-like Using Deep Learning
   Michael Wilson,Pritish Chandna,Ryunosuke Daido,Yuji Hisaminato
さまざまな実験により人間とVOCALOIDの音声を比較。オートエンコーダ4種類を試したが、周波数領域でのCNNを使うとF0抽出のようなものが学習された。次に人間とVOCALOIDの判定器を学習。精度は振幅スペクトルを使って最高94%ぐらい。次に敵対的学習でVOCALOID音声を人間っぽくするポストフィルタリング。変換にはLSTM使用。F0とラウドネスを変換したら音痴になった。4つめは、オートエンコーダで音声を2つに分離し、片方をF0だけから生成する。最後にVOCALOIDの音声を人間の音声に変換するネットワークを作った。

(5) 能の声楽「謡」における発声と音色の解析・考察~和の“渋い声”と洋の“クリスタルボイス”~
   田中 敏文,於久 光輔,永原 正章,山本 裕
「和」の発声法について。最初に「洋」と「和」の声で謡を実演。また様々な声をスペクトル解析。腹から声を出すと非整数倍音成分が多くなる。

(6) 瞬時周波数および群遅延に基づく非周期成分推定法再考
   河原 英紀,榊原 健一,森勢 将雅,坂野 秀樹
音声の非周期成分の推定。周期成分の推定から非周期成分を測る。ナットール窓で切り取って分析した瞬時周波数成分を平滑化したものをF0の間隔でサンプリングしたものがノイズフロアになる(よくわからない)。実音声についての推定はまだ課題があるらしい。

■自動楽曲分析[15:40-16:30]
(7) スペクトログラムの階層的クラスタリングを用いたグルーピング構造分析について
   澤田 隼,竹川 佳成,平田 圭二
GTTMのような木構造による音楽の分析を信号レベルで行う。入力のスペクトログラムを1拍ごとに分割し、テクスチャの類似性によって階層的クラスタリングを行う。スペクトログラムのテクスチャはどちらかというと音色を表すので、GTTMでの類似度として使うのは難しいのではないかなあ。

(8) 大域・局所リズムパタンテンプレートマッチングに基づく楽曲の伴奏スタイル識別
   篠井 暖,前澤 陽
伴奏のスタイルを識別する。伴奏の種類によってジャンル分類や推薦などに応用できるという話らしい。パターンとして、楽器編成、リズムパタン、BPMを考える。ヤマハのキーボードに入っている伴奏スタイルデータをテンプレートとする。特徴量として、スタイルデータから抽出したスペクトル基底を使ってNMFで求めたアクティベーション行列(リズムパターンの特徴量)、ビートの長時間スペクトルなど。それぞれの特徴量の相関係数とBPMの類似度から類似度を計算する。

■産学連携企画[16:50-18:20]
(9) パネルディスカッション:研究をイノベーションにつなげる~使ってもらってなんぼでしょ!~
   帆足 啓一郎,藤島 琢哉
プラスアドCEO 小池宏幸
・会社の説明。音楽ITベンチャー
・piaScore, Tuner, Piano+, Joyle(オンライン楽器レッスン)
・Problem first, not solution
・車がない島に信号機を作らない
しくみデザイン 中村俊介
・KAGURA(インタラクション楽器)
・体感型コンテンツ、広告、ゲームなど
・製品版では音の製作ができる
ヤマハ新規事業開発部 松本恵
・ヤマハの多角化 楽器・音響機器・その他
・産学連携・協業
 FM音源(スタンフォード大)
 ボーカロイド(ポンペウファブラ大)
 Stretchable strain sensor(静岡大学)CNT応用
 第一興商、VIE STYLE
・新規事業開発
 Value Amplifier(社内ベンチャーみたいなやつ)
  おもてなしガイド(音響データハイディング)
  HEARTalk(音声対話の韻律)
 Yamaha Sound & Music Innovation Platform
  なかなか難しい

12872996 journal
日記

aitoの日記: 2016/8/9-10 EA研・聴覚研@東北学院大多賀城キャンパス

日記 by aito

8月9日(火) 午後
座長: 島内 末廣 (NTT)
13:00 - 14:30
(1) 客観尺度を単語候補間で比較する二者択一型了解度推定方法の検討 ○近藤和弘(山形大)
二者択一型の単語了解度主観評価(DRT)に対応する客観評価手法の改良。試験用単語対セットを用意し、どちらかの単語の劣化した奴をクリーンな2つの候補単語をそれぞれサブバンドに分けて、サブバンドごとに重み付きで距離を求める。正しい単語間の距離が誤り単語間の距離より大きいかどうかで値を±1に振り分けてサブバンドについて集計。従来の(PESQより良いとされる)客観評価法よりも種環境価値と高い相関を示す。

(2) バイノーラル音声了解度の客観推定方法の改良 ○平 和也・近藤和弘(山形大)
両耳受聴時の音声了解度の推定。帯域ごとのSNRを基本とした特徴量を使うが、右か左のSNRが良い方を使うモデル(ベターイヤーモデル)、帯域ごとに良い耳を選ぶモデル(帯域別ベターイヤーモデル)、右と左耳の帯域を全部使うモデル(フルモデル)をモノラルと比較。クローズドの場合、提案の3モデルはいずれもモノラルより良く、回帰はランダムフォレストが良い性能。オープンテストでは、ニューラルネットとSVRはいまいちな性能。ランダムフォレストはロジスティック回帰より少し良い。特徴量はベターイヤーモデルが良い。

(3) 音声強調のための音声調波構造の時間周波数変化による位相復元 ○若林佑幸・福森隆寛・中山雅人・西浦敬信・山下洋一(立命館大)
音声強調における位相復元処理。音声強調では昔から位相は重要視されてこなかったが、最近は位相の重要性が見直されてきている。STFTPI法(STFT位相改善法)は、音声を基本波とその高調波だけからなると仮定して位相を復元する方法。これは単純な方法だが、初期値依存性が高いことと、時間変化が人工的で音質が悪いことが問題。これを改善するため、高域(SN比が低い)での位相を推定する方法と、自然な位相の時間変化を推定する方法を提案。事前SNRによって位相の信頼性を評価し、信頼できる周波数ビン(おおむね調波成分)について、位相を低次の高調波から順次求める。

8月9日(火) 午後 城戸健一先生メモリアルセッション
座長: 伊藤 彰則(東北大)
14:45 - 16:45
(4) 14:45-15:25 [招待講演]故城戸健一先生のご業績 ~ 電気音響分野を中心に ~ ○安倍正人(岩手大)
(5) 15:25-16:05 [招待講演]故城戸健一先生のご業績 ~ 音声分野を中心に ~ ○牧野正三(東北文化学園大)
(6) 16:05-16:45 城戸先生との思い出

香野俊一先生(東北大学・二村研出身)
鈴木陽一先生(東北大学・二村研出身)
金井浩先生(東北大学・城戸研出身)
大槻恭士先生 (山形大学・城戸研出身)

8月10日(水) 午前
座長: 平原 達也(富山県立大)
10:00 - 11:30
(7) 10:00-10:30 ウエーブレット解析を用いた分娩監視装置からの胎児心音のノイズ除去実験について ○荒木睦大・森 幹男・浅井竜哉・玉村千代・高橋 望・西島浩二・吉田好雄(福井大)
超音波ドプラによって観測した胎児の心音のノイズ除去。胎児の心音を観測して、心音の周期の変動を調べたいが、雑音が多いため困難。そこでWavelet denoisingを使って雑音を除去する。マザーウェーブレットは7~8次Daubechies。定量的評価はなし。

(8) 10:30-11:00 ロングパスエコー下における既存の緊急速報を模した4連単語の了解度 崔 正烈・○坂本修一・田村祐揮・鈴木陽一(東北大)
これまでロングパスエコー下での音声聞き取りを向上させるためにフレーズ間にポーズを入れる手法を検討してきた。そこでは人為的な固定長単語連鎖を使っていたので、今回は単語(文節)の長さにばらつきがある場合の検討を行った。まず地震・津波の警報文などを分析。4モーラ文節が最も多い。文長の最頻値は9~12モーラ。この分析結果を受けて、3~6モーラ/文節×4文節のパターンを作って実験を行った。その結果、1~2モーラ文のポーズを入れることによって聞き取りが向上。

(9) 11:00-11:30 インパルスハンマを用いたコンクリート構造体内部空隙の非破壊診断法の実験的検討 ~ プレストレストコンクリート橋における未充填シースの診断 ~ ○藤岡豊太・永田仁史・安倍正人(岩手大)
打撃によるコンクリートの非破壊検査の方法をコンクリの橋に適用。プレストレストコンクリート(pre-stressed concrete)は、あらかじめ内部に圧縮応力を入れておくことで引っ張りに強くしたコンクリート。ポストテンション方式では、コンクリート構造体にあらかじめ穴(シース)を通しておいて、そこにPC鋼材を通して引っ張り、グラウト(重点用のセメント)を入れて固化させる。実験では、複数あるシースのどれかをわざと空洞にしておいて、それを検出できるかを検討。実測により空隙によって差があることを確認。また、FDTD法でシミュレーションを行った。定性的には合っているが、値の再現性はいまいち。

8月10日(水) 午後
座長: 渡邉 貫治(秋田県立大)
12:50 - 14:20
(10) 12:50-13:20 FDTD法による任意境界音場計算のためのボクセライザーの開発 ○土屋隆生(同志社大)
土屋先生の夏の自由研究。3次元FDTD法における3次元形状のボクセル表現を得るために、STLまたはOBJ形式表面形状モデルからボクセル表現を合成するためのプログラムSUF2VOXを書いた(MATLAB)。応用として頭部モデルからHRTFを計算してみた。

(11) 13:20-13:50 頭部運動を伴う音像定位時の純音検知限 ○岩谷幸雄(東北学院大)・本多明生(山梨英和大)・尾崎佑介(東北学院大)
頭を動かすと音像定位精度が上がることがわかっているが、その詳しいメカニズムはよくわかっていない。視覚におけるサッカード抑制と同じようなことが起きているのかどうかが知りたい。そのため、音像定位時の純音の閾値を測った。被験者の前に置いた複数のスピーカから帯域阻止ピンクノイズを出して定位させると同時に、被験者の真上にもスピーカを置いてそこから純音を流し、それが知覚できたかどうかを調べる。その結果、頭部運動条件では純音の閾値が上昇した。

(12) 13:50-14:20 音源距離も考慮した音空間共有型2領域音場再現 ○清水 拓・トレビーニョ ホルヘ・坂本修一・鈴木陽一(東北大)・伊勢友彦(アルパイン)
音場再現で、再現領域を複数設ける方式を従来提案している。従来は平面波しか再現できず、音源からの距離感を提示することができていなかったが、今回の発表では球面波に対応した。

12870269 journal
日記

aitoの日記: 2016年7月30日~31日 MUS研究会@東京理科大野田キャンパス

日記 by aito

7月30日 音楽情報科学研究会@東京理科大 野田キャンパス

13:30~ 音楽分析
(1) SMF解析による楽曲の難易度判定(木更津高専)
間に合わなくて途中から。MIDIからピアノ曲の演奏の難しさを推定する手法のようだが、すべてヒューリスティックなのでいろいろ突っ込まれていた。

(2) 平均情報量からみたクラシックギター国際コンクールの自由曲の特徴分析(東海大)
コンクールで使われた曲の分析。最初に人気曲の作曲家の分布などを年代別に分析。また音高・音名・音価それぞれについて、古い作品よりも新しい作品の方がエントロピーが大きい。

(3) 作業用BGMに特化した楽曲推薦システム(筑波大・産総研)
後藤さんチーム。後で聴いたら発表者は学部2年生だそうだ。作業のためのBGMとしては、好きでも嫌いでもない曲が適している。そこで「とても好き」な曲を除くことで、集中力を高める曲を推薦する。再生した曲に対してユーザがフィードバックを入力し、それに基づいて次の曲を推薦する。再生される曲は自動的にサビの部分で終わるが、「もっと聴く」あるいは「スキップ」ボタンで継続再生あるいは中断させることができ、これを嗜好として使う。また、キーボード・マウス・Webアクセスのイベント頻度のBoFのn-gramを使ってユーザの集中度を推定する。また、ほどほどに好きな曲の中で、集中している場合には直前の曲とできるだけ似た曲を、集中していない場合には似ていない曲を選曲する。評価はシミュレーションだが、きっちりやっている印象。

15:15~ オーガナイズドセッション
(4) 統計的文法理論と構成的意味論に基づく音楽理解の計算モデル(JAISTほか)
東条先生。
・4つの問い。
        音楽を音楽と分かりますか?
        意味を伝えるって何が伝わるのですか?
        音楽に文法はありますか?
        音楽に文法を仮定すると何かいいことありますか?
・どこまでが音楽か
        ダーウィンによる音楽に関するquote
        音楽のカンブリア爆発(17C~)
        そこから現代は3つに分かれる(前衛音楽・ジャズなど/クラシック/ポップス)
・意味が伝わるとは
・音楽に文法はあるか
        FSAとCFG
        カデンツには文法がある→シェンカー理論、GTTM
・音楽に文法を仮定すると
        GTTMの木構造を中心に考える

このあと東条先生、平田先生、麻生英樹さんの鼎談。

(5) deepGTTM-II: ディープラーニングに基づく拍節構造分析器(京大)
浜中先生。最初にGTTMの歴史とアプリケーション(予測ピアノ、メロディモーフィング)。アプリに利用するためにはタイムスパン木を手作業で創らなければならない。自動分析をするためのシステムATTAなど。
これまでの解析器の実装は、ナイーブなGTTMの実装と、確率に基づくものの2つがあった。
GTTMへのdeep learningの導入。拍節構造の抽出に使う。
大量の学習データが必要。プレトレーニングにはWebから集めた15000曲、ファインチューニングには自分でラベルを付けた300曲を利用する。
deepGTTM-II。入力は各音符のオンセット・オフセットとベロシティ・ピッチ・グルーピング構造を使い、出力は拍節構造の選好ルール(を使うかどうか?)。

17:00~ 音響信号処理・プログラミング環境
(6) 調・コード・音高・スペクトログラムの階層ベイズモデルに基づく多重音解析(京大)
吉井研。自動採譜のための音高の解析。コードがわかれば音高に対して制約になるので、コードとコード校正音と音高を同時に推定する。正解の音高の前後にずれたり挿入したりする誤りが減少。枠組みは吉井研なのでゴリゴリのベイジアンで、調→コード進行→ピアノロール→スペクトログラムという生成モデル。ピアノロール→スペクトログラムはNMF(ただしアクティベーションは2値)。コード進行は調に依存したHMM。だいぶがんばっているが、音高推定のF値でみると提案手法の導入による性能向上はわずか。

(7) 歌声F0軌跡に対する音符推定のためのベイジアン準ビート同期HMM(京大)
吉井研。歌声F0軌跡とビート位置の情報を入れると音符列が出てくる解析器。そこでオンセットとビート時刻のずれと、音符音高とF0のずれをそれぞれモデル化する。モデル化はHMMだが、音高とオンセット変動と周波数変動を別なモデルで生成し、それぞれのモデルがビート区間で同期して遷移する(といいつつオンセット変動は1つの分布だけで時間的に変動しない)。周波数変動はコーシー分布でモデル化し、幅をΔF0に比例させる。モデル学習はMCMC。単純な多数決による音符推定より性能向上。

(8) DJCoder: DJシステムと密に連携したプログラミング環境(明治大・産総研)
DJプレイでB2B(複数人でのDJプレイ)があるが、それと同じようなことを一人で行うにはどうするか。この提案では、個々のDJプレイ(ミックス)をプログラムで表し、その操作を人間がやる。また、DJがリアルタイムでプログラムを組み替えることができる。提案システムはJavaScriptによるDJシステムTraktor Proに重ねる形で実現している。APIの説明があったが、結構大変そうだなあ。

7月31日 音楽情報科学研究会@東京理科大 野田キャンパス

9:00 特別企画 情報処理学会誌「音楽を軸に広がる情報科学」特集連携講演
「情報処理」2016年6号に掲載された特集の内容の紹介。
・音楽と音声情報処理
SLPの温泉から駆けつけた齋藤先生@東大。音声情報処理と音楽情報処理の各種技術を対応させる形で紹介。「感情推定⇔演奏者推定」「話者適応⇔演奏表情付け」という対応がちょっと目新しい。

・音楽とコンテンツ生成
深山さん@産総研。各種コンテンツ自動生成技術(特に自動作曲)。自動作曲の黎明期から最近の成果まで。ルールベース→事例ベース→機械学習ベースの流れ。今後は音楽音響信号の分析結果を使うものが出てくるだろうという予測。

・音楽と機械学習
吉井先生。機械学習が流行しているが、音楽情報処理分野は感度が低い。音楽分野での機械学習動向を知るために、今年のISMIRの発表をLDAで分析してみた。トピックの大きいところから「アノテーション」「特徴量」「ディープラーニング」「楽譜データ」「評価」「テンポ・ビート」「歌唱表現」「ドラム」「音楽データ」「メロディ分離」「アルゴリズム・確率モデル」「ユーザスタディ」「セグメンテーション・インド音楽」「メロディ」「ネットワーク」「推薦」「音楽サービス」「判断・脳」「音源分離・機械学習」。

・音楽と情報検索
帆足さん。
音楽情報の研究動向:「音響特徴ベース→メタ情報ベース→多様化」
その背景:ダウンロード型からストリーミング型へ(厳密な曲の情報を検索→今聴きたい曲、体験、発見重視の検索へ)
ストリーミングサービスでの検索方法:同一テーマの楽曲を集めたチャンネルを選択。プレイリスト作成の少なくとも一部は人手だと思われる。
研究テーマとして「チャンネルの自動生成」「ユーザの状況に応じて明確な検索クエリなしに検索する」「音楽ストリームの評価」など

・音楽とヴィジュアライゼーション
伊藤先生@お茶大。音楽情報の可視化の意義。典型例としては、楽曲・演奏者の分布の可視化と、特定楽曲の進行や構造の可視化がある。
音楽情報の可視化技術の分類。「1曲 vs. 複数曲」「専門家対象 vs. 一般対象」「楽譜 vs. 音響信号」「表現形式」「対話処理の有無」等。
可視化システムの例。「MusiCube:音楽推薦結果の可視化」「Colorscore: クラシック音楽の楽譜の彩色・ようやく表示」
今後の展望:音楽定額配信時代のインタフェース、ビジュアルアプリ上での実相、アナログ時代の音楽鑑賞手段の復元など。

・音楽とWeb
濱崎さん@産総研。Webによって、音楽の発信・聴取・情報源・コミュニケーション手段などが大きく変わった。音楽とWebの融合研究:ソーシャルデータ基盤としてのWeb(ソーシャルタグやツイート分析など)、サービス基盤としてのWeb(ユーザ参加、成果発信)。
Webネイティブな音楽(典型的にはニコ動におけるVOCALOID音楽)
研究紹介:Songrium/Songrium3D/バブルプレーヤ/RelayPlay

・音楽とHCI
竹川先生@はこだて。インタフェースとしての楽器。楽曲制作→練習→披露→視聴の各フェーズで研究がある。
編曲作曲支援:Max/MSP, UPIC, Hyperscore, Garageband etc.
楽器制作:古典楽器の拡張、新しいデザインの楽器(NIMEで提案されるものなど)
フィジカルコンピューティングからデジタル・ファブリケーション
練習支援、補助からの離脱方法

・音楽とロボット
水本さん@HRI-JP。
音楽とロボットの研究の特徴:身体性、非言語コミュニケーション、参加型エンタテイメント。
ロボットの音楽表現(楽器演奏/舞踊/歌唱)×人間とのインタラクション(あり/なし)
共演者ロボットの問題。同期レベル、時間的制約、雑音への頑健性
共演者の引き込みを考慮したタイミングの同期
 結合振動子系による合奏のモデル化
テルミン演奏ロボット

・音楽と脳科学
寺島さん@NTT。
脳科学と情報科学:脳活動の解析技術、脳活動の理解モデルとして
脳活動の無仮説解析:様々な音を聞かせ、音×脳のボクセルの脳活動の行列を作り、NMFで分析。
聴覚野の階層性と深層学習
学習メカニズムは視覚野と共通

11:00 新博士によるパネルディスカッションV「新博士さんいらっしゃい!」

13:45 楽譜
(11) 視線情報を活用した楽譜追跡システムの構築(はこだて未来大)
楽譜の追跡。従来の演奏情報だけでなく、視線情報とヒューリスティクスを導入し、精度を向上させる。最初に視線のぶれを平滑化し、音符と対応させる。打鍵シーケンスから推定した複数の演奏位置候補について、視線に近くて視線より前の位置に確定する。誤打鍵から復帰する場合については、ヒューリスティックなルールをいくつか用意して対応。視線情報の導入によって、位置の同定率は約70%から約96%ぐらいに向上。

(12) 頷き動作による自動譜めくりシステムでの合図とリズムノリの判別(木更津高専・明治大学)
頷きをトリガとする自動譜めくり。Webカメラ画像に対してHaar-like特徴量で顔を検出し、そこから鼻を抽出してトラッキングする。鼻の位置を特徴量としてジェスチャ(頷き)をHMMで認識する。高精度化のために、頷きとテンポに合わせて頭を動かす動作(リズムノリ)を識別する。単純な閾値で判別すると2/10で取りこぼしがある。

(17) 演奏者の楽譜の休止区間における自動伴奏のテンポ制御(千葉大学・木更津高専・明治大学)
自動伴奏システムEurydiceのテンポ制御。人間が演奏せず伴奏だけがある区間(休止区間)では、休止区間直前のテンポを連続する使用だが、休止区間中でもテンポを演奏者が制御するために、専用のキー(タップキー)をタップすることで音を出さずにテンポを指示する。タップキーとしては、通常のキーボードで演奏に使用しないキーを割り当てる(当該キーが押された場合にはPCから音を出さない)。タップキーの場所とミスタッチのしやすさを調べたところ、端のキーがもっとも推しやすいことがわかったので、それをタップキーとして使う。タップは途中で中断しても良い。

12870263 journal
日記

aitoの日記: 2016年7月28日~29日 SP/SLP研究会@天童温泉

日記 by aito

7月28日(木)

■音響モデル・適応化(14:00-15:30)

(SP-1) 英語レベル連結DNN音響モデルを用いた日本人英語音声認識の評価
      ○河内祐太,政瀧浩和,浅見太一,青野裕司(NTT)
非ネイティブ(日本人)英語発話の認識。GMM-HMMではMAP適応などが使えるが、DNN-HMMだとうまく適応できないので、ネイティブ性を表す特徴量を作ってそれをネットワークに入れる。具体的にはフレームごとに言語を判別するニューラルネットを作って、そのボトルネック層出力を認識用DNNの入力とする。ネイティブ性の識別に寄与するのは子音ではr,v,fなど、母音ではei,ouなど。1ポイントぐらい改善。

(SP-2) 基底fMLLRのための効率的な基底選択と重み係数推定法
      ○金川裕紀,太刀岡勇気,成田知宏(三菱電機)
少ない適応データでfMLLRをかけるための手法が基底fMLLR(少数の基底行列の線形結合で変換行列を表現し、その結合係数のみをML推定する)。この発表では、重み係数を更新学習するときに、学習時の寄与度も考慮して変換行列を推定する。また、基底行列数が限られることに対する悪影響を除くため、似ている基底行列をまとめて1つの行列とすることで実質的な基底行列を減らす。

(SLP-1) 識別的推定法に基づく音声の構造的表象を制約として用いたニューラルネットワーク音響モデルの話者適応
      柏木陽佑,○齋藤大輔,峯松信明(東大)
再学習によるDNN音響モデルの話者適応。再学習をするときに、全音響イベント分布間の距離の関係が変わらないようにパラメータを動かす。分布間距離であるバタチャリヤ距離の計算において、各音素の分布をガウス分布近似しなくてもいいよう工夫しているようだ(式を追い切れなかった)。話者ごとに40~50発話の適応データを使った教師なし適応で評価。音響イベントとして、無音と子音を除いた(つまり母音と半母音のみの)モノフォンを使うのがよく、最大で0.9ポイントほど改善。

■音声合成・声質変換 (15:45-17:45)

(SP-3) DNN音声合成における複数話者モデル化のための話者コードの利用
      ○北条伸克,井島勇祐(NTT),水野秀之(諏訪東京理科大)
複数話者の音声コーパスを使うことで音声合成品質を改善する。従来法としてi-vectorを入力とする方法が提案されているが、それほどうまくいっていない。最初の実験は複数話者データを使った話者クローズな音声合成実験で、i-vectorではなくて話者コード(話者数の次元を持って1-of-K表現されたベクトル)を追加する入力層を変えて実験を行っている。適応で他が少ない場合は、入力する層を2~4層にすると客観評価結果がちょっぴり改善。データが多い場合は、すべての中間層に話者コードを入れる方法が良い。次の実験では、新しい話者の適応方法では、話者コードに新しい次元をつけくわえて再学習する。この場合はできるだけ出力層に近い中間層に話者コードを入力した方が良い。適応は全体に余りうまくいっていない。

(SLP-2) 巨大特定話者データを用いたHMM・DNN・RNNに基づく音声合成システムの性能評価
      Wang Xin(総合研究大学院大),○高木信二,山岸順一(国立情報学研究所)
音声合成を行う場合に大規模コーパスを使うことの効果について、100時間の特定話者データを使って調べた。性能的にはRNN>DNN>HMMの順。25h→100hにすることで、品質はやや改善。客観評価では、データ増加によってF0は改善するが、メルケプストラム歪みは頭打ちの傾向。

(SLP-3) Deep Learningを利用した任意話者の声質変換
      ○関井祐介,折原良平,清雄一,田原康之,大須賀昭彦(電通大)
DNNによる多対一声質変換で、オートエンコーダをかませることで計算量を削減する試み。入力話者・出力話者それぞれについてオートエンコーダによって次元を削減し(50次元・100次元)、圧縮した特徴量をDNNで変換する。スペクトル包絡をそのまま使った場合(512次元)、MFCCを使った場合(25次元)と比較して、MFCCより改善。スペクトル包絡よりは速い。

(SLP-4) 時系列構造を考慮した行列変量ガウス混合モデルによる声質変換
      ○内田秀継,楊奕,齋藤大輔,峯松信明(東大)
行列変量(MV)GMMによる声質変換に時間構造を入れるために、複数フレームを行列変量とする方法を検討。通常のMV-GMMでは話者数(2)×特徴量次元の行列をモデル化するが、これを時間方向にまとめることによって、(話者数×フレーム長)×特徴量の行列を作る。

■SLP企画(夕食後)

(SLP-5) 音声研究の最新動向:ICASSP2016の発表より

7月29日(金)

■教育・福祉(9:00-10:30)

(SLP-6) 世界諸英語発音分類を目的とした構造的特徴の不変性制御に関する検討
      ○塩澤文野,柏木陽佑,齋藤大輔,峯松信明(東大)
構造的特徴を使った「発音距離」を求める。さまざまな英語発音を含むSpeech Accent Archiveの読み上げから個人・方言非依存音素モデルを作り、MAP適応でモデルを個人化した上で分布間距離行列を作る。しかし普通の構造的特徴だと不変性が強すぎて方言に対しても普遍になるかもしれないので、話者性に対しては不変だがそれ以外には変化するように構造を工夫する。具体的には、帯行列による一次変換に対してのみ不変になるようにする(実装としては、いくつかの次元をまとめて独立な構造を作る)。こうやって作った構造(分布間距離行列)を入力として、人間がラベリングしたIPA発音記号間距離をSVRで推定する。全体を4つに分割することで精度がやや向上(0.73ぐらい)。

(SLP-7) Automatic Assessment and Error Detection of Shadowing Speech
      時書菊(北京言語大),○楽俊偉,柏木陽佑,外山翔平(東大),山内豊(東京国際大),齋藤大輔,峯松信明(東大)
シャドウイング音声からの誤り検出に向けた研究。シャドウイングの誤りをいくつかに分類して実データを分析。単語の欠落とTOEICスコアに高い関連がある。そこで、発音すべき単語とショートポーズを並列に接続して並べた単語ネットワークでシャドウイング音声をアラインメントして、ポーズの部分を欠落と判定する。検出率7割ぐらい。また、単語欠落率にGOPなどいくつかの特徴量を追加してTOEICスコアの推定を行った。推定データセットのTOEICスコアが偏っている場合にも、比較的高い相関が得られる。

(SLP-8) 高齢者の体感状況理解のための韻律に着目した発話行動分析
      ○新村颯,桐山伸也(静岡大)
高齢者の体感温度に関する状況の理解が目的(必ずしも物理的な気温と比例しない)。その一環として高齢者の発話行動の取得と分析を行った。そのために、室内行動に関する知識ベース(インドアコモンセンス)を利用。4人の被験者が話をしながら過ごしている間に主観情報や発話音声、心拍数などのデータを取得。分析してみたが、体感温度の変化と発話の感情ラベル(発話長・F0に関する単純なルールによって付与)とはあまり関係が無い。しかし、体感温度が「快⇔不快」の間で変化するときには発話の感情とある程度関連がある。

■特徴量・VAD(10:45-11:45)

(SLP-9) 音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出
      ○藤田悠哉,磯健一(ヤフー)
Yahoo!の音声エンジンに使われている技術。DNNベースのVADを利用している。現状の問題点として、背景発話(テレビからの音声など)による誤検出が多い。特に車内音声認識の時に問題になる。ここで、背景発話は目的発話よりも遠くで鳴っていることが多いので、残響や雑音の影響を受けやすい。一方入力発話はマイクの近くで発話されることが多いので、音素の事後確率を計算すると特定の音素の確率が高くなりやすい。そこでフレームごとに音素(の各状態)のエントロピーを計算すると、音声区間で小さくなりやすく、背景発話のある非音声区間では高くなりやすい(雑音のない非音声区間では小さい)。そこで、まず通常のDNNによるVADを行い、音声区間と判別された区間でエントロピーを計算し、大きければ棄却する。フレーム単位の評価ではエラー率が4.54%から4.29%まで減少。文誤り率は3.95%から3.52%に減少。

(SLP-10) 音声認識におけるフレームシフト再考
      ○伊藤彰則(東北大)

(この間いったん大学に戻ったため聞けなかった)
■SPオーガナイズドセッション(招待講演)(13:15-15:15)

(SP-4) [招待講演] 多様なテキストの言語処理
      ○森信介(京大)
(SP-5) [招待講演] 音声中の検索語検出の研究動向とDNNの導入事例
      ○伊藤慶明,紺野良太,小原真人(岩手県立大),李時旭(産総研),田中和世(筑波大)

■SPオーガナイズドセッション(一般講演)(15:30-16:30)

(SLP-11) 音声クエリによる音声検索語検出のための認識結果およびDNNベースの特徴抽出と再照合手法の比較評価
      ○大石修司,松葉達哉,甲斐充彦(静岡大)
(ここで戻ってくる)

(SP-6) 音声中の検索語検出における音響距離構築方式の検討
      ○紺野良太(岩手県立大),李時旭(産総研),田中和世(筑波大),小嶋和徳,伊藤慶明(岩手県立大)
連続DPベースのSTDにおいて、サブワード間距離をいろいろ工夫。これまではGMM-HMMのGMMの間でのバタチャリヤ距離を使っていたが、最近のDNNでは分布間距離を求めることができないので、認識結果のconfusion matrixを使う方法(DNN-CM)、事後確率出力からバタチャリヤ距離を求める方法(DNN-BD)を比較。全体的にはDNN-CMが高性能。

■SLP企画(夕食後)

・学生の研究活動をもっとエンカレッジしよう
    ~各地・各学会・各組織の学生支援の枠組みについて~

12870261 journal
日記

aitoの日記: 2016年7月14日~15日 EMM研究会@山口

日記 by aito

7月14日(木) 午後 セッションA-1 EMM
座長: 新見 道治(九工大)
13:00 - 15:05
(1) 雑音特性を考慮した電子透かし方式への誤り訂正符号の適用と考察
○重本章吾・栗林 稔・舩曵信生(岡山大)
スペクトル拡散+軟判定とQIM+硬判定処理のシミュレーションによる比較。誤り訂正はLDPC。

(2) ケルクホフスの原理に基づく電子透かし方式の安全性において特徴選出および信号処理の重要性 ○山下晃一郎・栗林 稔・舩曵信生(岡山大)
ケルクホフスの原理その2「暗号方式は秘密であることを必要としてはならない」という言明を透かしに適用した場合、「秘密鍵を除く透かし方式が公開されていても安全性に問題ない」ということになるが、栗林先生のところで推しているDCT-OFDM方式では方式がわかると結託攻撃を受ける。これへの耐性を挙げたICIP2015方式について、方式の中の各処理が結託攻撃にどう有効なのかを調べた。その結果、最初にホスト信号にPN系列を乗算する処理は不要であることがわかった。

(3) クリアインクを用いた難視性パターンからの情報抽出に関する研究 ○松江勇輝(東京理科大)・金田北洋(阪府大)・岩村恵市(東京理科大)・越前 功(NII)
ここで用いている難視性パターンは18x18ピクセル領域の中心に点を打つか打たないかによって紙文書背景に0/1を埋め込む方式。前景に文字があると抽出の誤りが多い。今回の提案法では、同じ処理をクリアインク(透明な光沢を持ったインク)で行ってさらに知覚しにくくする。提案法では51x51pixelの中央25x25pixelにクリアインクを打ったり打たなかったりする。また、畳み込み符号によって誤りを減少。

(4) 内壁の構造化による3Dプリンター造形物への情報埋め込み技術 ○中村耕介・鈴木雅洋・高沢渓吾(神奈川工科大)・高嶋洋一(NTT)・鳥井秀幸・上平員丈(神奈川工科大)
一連の3Dプリント造形物への情報埋め込み。今回は内部が空洞の造形物について、内側に凹凸をつけて、熱伝導の違いによってサーモグラフィで情報を読み出す。パターンドットの大きさが2mm角だと読み出し可能だが、1mm角ではエラーが多かった。

(5) ジグソーパズル解法に対するブロックスクランブル画像暗号化法の評価 ○中満達也・栗原健太・貴家仁志(首都大東京)
ブロックスクランブル画像暗号化は、画像をブロックに区切った上でランダムに並べ替え、ブロックの方向を回転・反転させて色成分もシャッフルしたもの。通常の暗号とは違い、暗号化した画像を圧縮したり雑音付加した場合も元に戻すことが可能。一方安全性については、総当たりについては十分安全ではあるが、ブロック間に相関があるため本当の安全性はもっと低いはず。そこで、GAを使ったジグソーパズル解法を適用して安全性を測る。結果としてブロックサイズが大きい場合(28x28pixelとか)には比較的復元されてしまうが、ブロックが小さくなると復元が難しくなる。また、JPEG圧縮による量子化雑音が混ざると復元しにくくなる。

7月14日(木) 午後 セッションB-2 CSEC(1)/SPT
座長: 島岡 政基(セコム)
(15) 金融業界において注目されている情報セキュリティ上の研究課題:認証技術に焦点を当てて
  ○中村 啓佑・宇根 正志(日本銀行)
日銀の金融研究所が毎年行っている情報セキュリティシンポジウムについて。
・顧客アンケートによれば、インターネットバンキングでの不正取引、顧客端末(PC,スマホ)への攻撃、情報流出についての興味が高かった。
2016年のテーマは認証技術について。
・FIDO(ネットワーク認証で生体認証等を利用する手段を定めた技術使用)について。
・安全性評価(フィッシング、マルウェア、生体認証なりすまし)
 生体認証の安全性の評価(物体作成によるなりすましの評価など)。
・暗号ハードウェアに対するセキュリティ評価
・異常検知(異常な取引、侵入検知)

(16) サイバーセキュリティ脅威対策のためのビジネスリスク評価システムの提案
  ○磯部 義明・杉本 暁彦・仲小路 博史(日立製作所)
経営者がセキュリティリスクをビジネス的に判断できる指標の提案。インシデントを想定損失額として提示したり、セキュリティ対策の効果を金額で提示したりする。
関連研究としてISO31000と関連規格がある。また、ALE(年間損害推定額)によるリスク分析の指標も関連。CVSS(共通脆弱性スコアリングシステム)は脆弱性の評価基準。
提案システムでは、システムのリスク評価をする既存システムから、データ・サービス・ビジネスの異なる層においてリスク評価を伝搬させながら評価を行う。可用性、秘匿性、完全性および人件費について想定損失を計算し、事前対策の費用効果dROSIを算出。

(17) マルウェア対策のための研究用データセット ~MWS Datasets 2016~
  ○高田 雄太(NTTセキュアプラットフォーム研)・寺田 真敏(日立製作所)・村上 純一(FFRI)・笠間 貴弘(NICT)・吉岡 克成(横浜国大)・畑田 充弘(エヌ・ティ・ティ・コミュニケーションズ)
マルウェア研究コミュニティMWSが提供するデータセット。内容はマルウェア検体、マルウェア観測データ、挙動通信データ、DRDoS通信観測データ、マルウェア動的解析ログなど。
またMWSではデータ提供だけでなく、ワークショップ(MWS20xx)およびコンテスト(MWS Cup)も開催。

(18) 第一回IEEE European Symposium on Security and Privacy参加報告
  ○松本 晋一(九州先端科学技術研究所)・松浦 幹太(東京大学生産技術研究所)
標記の会議報告。ドイツのザールブリュッケンで開催。採択率17%で29件の発表。
・基調講演はShamirによるIoTデバイスへの攻撃について。いくつかあるIoTデバイスへの攻撃の中で、デバイスをハックして別な機能を勝手に持たせるなど。スマートLEDをハックして光通信チャネルを作り、それを天体望遠鏡で観測して100mの光通信を実現。
・ZeTA: Zero Trust Authentication(信頼できない環境での認証)。
・Taint Trackingのセマンティクス
・オンラインゲームによる偽装通信
・Translingual Obfuscation: プログラミング言語を別言語に翻訳することで難読化する。CをPrologに変換するなど
・欧州のBGP網の実体の解析

7月15日(金) 午前 セッションB-3 CSEC(2)
座長: 畑田 充弘(NTTコミュニケーションズ)
09:55 - 11:10 [変更あり]
(24) HTMLハイブリッドアプリケーションの静的解析によるCSP自動適用手法
  ○竹内 俊輝・齋藤 彰一(名古屋工業大学大学院)
HTML,JS,CSSを組み合わせたWebアプリに対するクロスサイトスクリプティングを防ぐためにContent Sectity Policyを利用するが、適切に適用するためにはすべてのHTMLのmetaタグを適切に設定すると同時に、すべてのJavaScriptソースで変なことをしてないことを確かめなければならない。そこで、HTMLとJSを自動解析して適切なCSPタグを自動付与し、ポリシーに合わない操作を自動削除する。実際にいくつかのアプリに適用したが、完全自動はなかなか難しいようだ。

(25) プロセス情報不可視化のための仮想計算機モニタによるメモリアクセス制御機能の評価
  ○佐藤 将也・山内 利宏・谷口 秀夫(岡山大学)
マルウェアが別の正常なプロセスになりすますのを防ぐために、プロセス情報の書き換えにアクセス制御を導入する。

(26) ナイーブベイズ分類器を用いたDNS Water Torture攻撃のフィルタリング手法に関する検討
  ○吉田 琢朗(豊橋技術科学大学)・竹内 優也(カーネル・ソフト・エンジニアリング)・小林 良太郎(豊橋技術科学大学)・加藤 雅彦(長崎県立大学)・岸本 裕之(コムワース)
DNS Water Torture(DNS水攻め)攻撃とは、DNSへのDDoS攻撃の一種。オープンリゾルバを介して、攻撃対象のDNSサーバに存在しないサブドメインのクエリを投げまくる。そこで、water tortureのクエリを権威サーバの前でフィルタリングするシステムを提案する。このとき、問い合わせされたサブドメインがランダム生成されたものかどうかをナイーブベイズ分類器で自動識別する。識別率97%ぐらい。

12799267 journal
日記

aitoの日記: 2016/05/27 第4回インテリジェントホームロボティクス研究会

日記 by aito

2016/05/27 10:01 第4回インテリジェントホームロボティクス研究会

10:00 委員長の岡田先生ごあいさつ、IHR研究会の紹介
Robot Innovation Challange(ロボット国際競技会)2020 @ Tokyo
 ものづくり分野、災害分野、サービス分野
 現在協議ルール策定中
 2018年10月にプレ大会@ビッグサイト、2020年本大会
 サービス分野種目案
  「我が家の一日を競う」種目
    Robocup@Home協議と類似
  店舗における各種業務自動化種目
    陳列棚ロボット、接客ロボット
  公共の場でのサービス種目
    空港のインフォメーション対応(シミュレーションのみ)
  人材育成(ジュニア部門)
 詳しいことはまだ決まっていない
Robocup 2017@Nagoya
 7月22日~28日(予定、変更可能性あり)
 1月後半 参加表明
 2月後半 Team description paper, videoなど提出
 3月 Qualification announcement
 Standard platform 部門実施予定、標準ロボット選定中

10:20 一人称カメラを用いた調理動作認識について(大阪工大)
初心者向け調理ナビゲーションシステム。テキストと動画によって調理の案内をするが、現状は手動で次の手順に行くので、調理動作を認識して自動的に次の手順を案内するようにしたい。
いままでは動作認識にマーカやスイッチを利用してきたが、今回はヘッドマウント型のカメラのみで動作認識を行うことが目標。
認識対象動作は切る剥く炒める加える和える洗うの6つ。色で手領域を抽出し、右手と左手のオプティカルフローから時系列移動方向ベクトルを求め、kNNで認識。
認識対象器具は包丁・まな板・ピーラー・フライパン・フライ返し・ボウル・鍋・菜箸。
領域候補にSelective searchを利用。Caffeを利用して物体認識。物体認識は動作の開始時のみに実行する。手で隠れやすい器具とそうでもない器具で認識手法を変えている。
レシピ分析から器具の事前確率を計算し、また器具と動作の同時確率分布から認識を行う。
動作認識では、移動方向だけでは性能が低い。調理器具推定と組合わせることで性能向上。

10:40 正直シグナルのロボットへの応用~ホームロボットに正直シグナルは必要か?~(電通大)
合コンを例に説明。「正直シグナル」(Honest Signals)とは無意識のシグナリング(いわゆる「空気を読む」ための「空気」)。
サービスロボットに「正直シグナル」を実装した場合、人にどのような印象を与えるのか。そのために、まず人間同士の対話を30秒計測し、1秒間隔で特徴量を抽出。特徴量は、パワー平均と分散、発話時間、運動のエネルギーと分散(話し手と聞き手で10次元)。
使っているロボットはKobuki(丸いロボット)。動きは前後移動と回転のみ。発生する音はビープ音みたいなやつだけ。音声と動きを人間同士の特徴と合わせた場合と、動き・音声それぞれの誤差を大きくした場合の結果を比較。アンケートの結果から、音声の誤差を増やすと「人間的」「相互性」の評価が下がる。特徴量とアンケートスコアの相関から、「人間性」「相互性」と音声のパワー(分散も)は高い負の相関、「意図性」と運動エネルギー・発話時間に高い負の相関がある。

11:00 オンラインマルチモーダルHDPに基づくロボットによる概念の長期学習(電通大)
概念と語彙の自動獲得。提示されたマルチモーダル情報と音声を同時に処理することで、提示した画像の抽象化と音声からの単語の獲得を同時に達成する。マルチモーダル情報は視覚、触覚(ロボットが物体を握る)および聴覚(物体を振ったときの音)。言語とマルチモーダル情報を扱う確率モデルMHDPはノンパラベイズで物体のカテゴリ数を自動で推定する。単語を推定するときにはHPYによる自動形態素解析を使っているそうだ。実験では1ヶ月間学生さんが物体を教え続けた。約500個の物体を学習。最終的に、61.7%で全物体を分類できるようになった。また音声認識精度・言語モデルのPPともに改善。

11:20 クラウドロボティクスの基盤技術と実世界の意味を扱う対話への展望(NICT)
杉浦さん。クラウドロボティクスについてのレビュー。
実世界情報を扱う言語処理では、現状まだ十分な対話ができていない。
テキストに現れない情報の推定についての従来研究。GoogleのShow and Tellなど。
ロボットの世界では、コーパスが画像などの世界に比べて遙かに小さい。音声・画像・NLPと同じアプローチを、把持・軌道計画・対話・シミュレーションなどに対して適用できないか。
参考:Robo brain (Arxivに論文あり RSS2014の招待講演ビデオがおすすめ)
参考:Robocup@Homeでは5個までクラウドサービスが使える(要申告)
CRESTのプロジェクト紹介。rospeex(音声認識・合成クラウドサービス)
 3万ユニークユーザ
 ロボット向け音声合成、他言語音声認識
 ロボットミドルウェア対応
実証実験:クラウド基盤により「ロボット対話開発者が共有する問題」が解析できるようになった
 クラウド音声認識の時間短縮:音声の分割送信によりRTF改善
 対話の5割は一問一答
 音声合成リクエストは個人依存性が高く、キャッシュを使えば高速化できる
  約半分は履歴に含まれる発話、各自が使用している文は200種類程度
研究者がクラウドサービスを作るときに気をつけること
 プラス面
  学習済みモデルを公開する必要がない、ロボット以外も使える、アクティブユーザ数が測れる
 マイナス面
  知名度が高くなると攻撃やAbuseの対象になるおそれ
  サーバ監視者にインセンティブを与えにくい
 これからクラウドサービスを作りたい人へ
  なにで成功を測るか、ユーザのインセンティブを本気で考えたか
  「Google, Microsoftなどが作るかもしれない」を気にしすぎない

午後から、Robocup Japan Openの@Homeの上位チームによる技術解説セッション。

13:20 @ホームにおける電通大の技術(電通大)
長井先生。
最初に、@ホームリーグの概要。
電通大チームのポリシー:研究要素を入れてチャレンジする
2008年ジャパンオープン: 最初は2チーム → 世界大会で1位
 ファイナルは画像認識+音声認識
2009年ジャパンオープン:2チーム 世界大会:2位
 ファイナルは模倣学習
2010年ジャパンオープン:3チーム 世界大会:1位
2011年ジャパンオープン:6チーム 世界大会:予選落ち
 ハードトラブル多し
2012年ジャパンオープン:10チーム 世界大会:2位
 物体認識(赤外線の反射率を使った)
2013年ジャパンオープン:10チーム 世界大会には注力しない
 ユーザの習慣の学習(mMLDA)
2014年ジャパンオープン:10チーム
 GPSRに力を入れる
 機械学習による命令理解(命令文→BoF→SVMによる行動セット認識)
2015ジャパンオープン:2位 世界大会(中国)
 大型資金の獲得(CREST) 研究要素+客観的な評価の場
CRESTプロジェクトの概要(記号創発ロボティクス)
 創発システム+クラウドロボティクス
2016年ジャパンオープン:トヨタHSR

13:50 Hibikino-Musashi@Homeチームにおけるロボット開発(九工大)
学生プロジェクトとして2010年に発足
 2015年:3位、2016年:準優勝
歴代のロボット:一時期カバーが着いていたが、メンテナンス性を重視して最近はカバーなし
対話、物体把持
ホームサービスロボットExi@(エクシア)
過去のシステム:
 サーバ・クライアント間でフラグをやりとり
 ソフトウェア同士はSocket通信
 ヒューマンエラーが多く、信頼性が低い
最近のシステム:全面的にROSに以降
 ロボット向けオープンソースパッケージが豊富
基本技術:注文を取り、物体をつかみ、元の場所に戻る
 アーム制御:ARマーカでビジュアルフィードバック
 音声認識:Julius 音声合成:OpenJTalk
 ロボットのシーケンス設定のためにステートマシンを設計
 GoogLeNetにいおる物体識別 フレームワークはCaffe
  回転テーブルを使った物体学習
ロボットにFPGAを導入
 PCには重い処理を並列化する
研究を実装するプラットフォームとしてのロボット
 脳波を用いたナースコールロボット
 非接触バイタルセンサ(電界共振型センサ)
抗議で活用する実習教材
 「カーロボ連携大学院」での実習に活用

14:10 GPSR向け音声対話システムにおける対話管理(大阪工大)
鈴木基之先生。
GPSR(General Purpose Survice Robot)について。
 何をどういわれるかわからない
  表現はその場でランダムに生成(事前には未公開)
 命令を適切に理解
  命令は3つの動作からなる
   「キッチンに行って、コーヒーを持って、戻ってきて」
   「キッチンにあるコーヒーを持ってきて」など
  部屋や物体の名前は与えられている
 ユーザ主導の対話でなければならない
 不完全な情報は聞き返す必要がある
意味解析の方法
 格フレームによる意味解析
  係り受け解析、動詞と格による意味理解
  助詞や助動詞が重要:音声認識では誤認識が非常に多い
  →認識率の低い環境では使えない
 スロット埋めによる意味理解
  タスクごとにスロットを定義
  複数の仮説を立て、もっとも必要な情報が得られたタスクを採用
基本的な流れ
 スロットとそこに入る単語リストを想定
 発話中からスロットに対応する単語を抽出
 空きスロットを問いかける応答を生成
 助詞が重要な場合は助詞付き単語(「キッチンから」など)を定義
複数の文への対処
 入力文を動詞で分割→分割された文ごとに解析
 動詞で切れない表現は別にタスクを容易
  「キッチンにあるコーヒーを持ってきて」など
動詞スロットの扱い
 タスクを選択する際に動詞は重要→動詞もスロットで表現
 動詞スロットが空欄で、競合タスクがあれば聞き返し
 競合するタスクがなければ聞き返さない
質問文の生成
 テンプレートを利用
音声認識・合成:Julius+OpenJTalk

14:40 今回のロボットブームに期待すること:到達すべき一里塚は?(森山和道)
前回のロボットブーム(10年前)
 自動車業界系:モビリティ
 家電・PC系
 愛知万博(2005)がピーク
今回のロボットブーム
 BtoB分野の期待と、BtoC分野の期待が入り交じっている
 産業用分野と非産業用分野が入り交じっている
 ロボットスタートアップは世界的
  高速インターネット
  スマホ+メイカームーブメント
  投資マネー
ソニーが再びロボット&人工知能へ
ロボット実用の4要素
 ハードウェア、ソフトウェア、運用、付加価値サービス
  技術者は正直に(できないことをできると言うな)
いろいろなロボット
 Disney Research テレブレゼンスロボット
 ROSが8周年
 AutoStore
 楽天ドローン配送
 オリオン機械 搾乳ロボット
 イチゴパック詰めロボット
なぜロボットブームは起き、終わるのか
 期待されているから、期待にそぐわないから
ブームに終わらせないためには
 期待のハードルを下げる、期待に応える
 技術レベルを挙げる
 現場と人の意識を変えて、現状技術とすりあわせる
動物にしか神経系はない
 動くことと知能との関係
柵なし産業用ロボット
 人と協働するロボット
 ロボット専有面積が縮小、小規模工場での活用が可能に
Universal Robot presentation 2005-
Kawada Robotics NEXTAGE
ライフロボティクス CORO
 福祉用途→産業応用
Doog追従運搬ロボット「サウザー」
 行楽施設用二人乗りモビリティ「モビリス」
未来機械
 ソーラーパネル掃除ロボット(砂を自動除去)
「導入しやすさ」がハードルの高さを決める
ブームに乗ろうとしている人たちへ
 歴史に学べ
 良いもの=売れるものではない
 「役に立つ」だけでは不十分
ブームが確実に残すもの:次世代
日本の状況
 人口減少(特に労働者人口)
 第四次産業革命による産業構造改革
人工知能やロボット等による代替可能性が高い職業
コミュニケーションロボット
 ペット、アバター、キャラクター
最近のロボット関連のデモを見ると
 人と機械ののインタラクションをなめすぎ
 従来研究をふまえていない
 ソフトウェア開発者の層が薄い
論文だけでは不十分
 現場ではノウハウが大事
新しい評価法が必要
 オープンデータやプラットフォームは維持管理が大変な割に今の枠組みでは評価されにくい
最近のトレンドと今後の予想
 実世界情報を計算機で扱えるように
 家庭用掃除ロボットもSLAM
Amazon Echo, Google Home
Google vs. Nuance
デバイスの消失
 デバイスを操作して到達するウェブサイトから偏在するサービスへ
Amazon picking challange
物体認識、音声認識、3Dモデル化など先進技術のコモディティ化
非構造化環境のさらなる構造化、より自然なインタラクション
ロボット事業は難しい
 資金力のないベンチャーは持たない、頭のいい人は挑戦しない
Roombaについて
テクノロジーがもたらした家事労働の変化
 「お母さんは忙しくなるばかり」
サービスロボットが目指すべきヒントは家政学の中にあるのでは?
人のふるまいを制約する4要素:法、規範、市場、アーキテクチャ
新技術は既存のインフラを下敷きにして発展する
 次に下敷きになるインフラは何か
ロボット普及の問題の洗い出し
 なぜ掃除ロボットは普及したのか?

15:50 次世代アクチュエータが創る人とロボットが共生する未来(大阪大学 仲田佳弘)
空電ハイブリッドアクチュエータの小型実用化「InnovActuation」(仮称)
「アクチュエータの錬筋術」→筋肉が究極のアクチュエータ
向上においてロボット化されている部分は一部
 ロボットを人と同じ空間で共働・共生させる
ロボットと人の物理的接触が避けられないタスク
空電ハイブリッドアクチュエータ
 出力と応答性の両立
 小型・軽量化 実用に耐え、汎用性が高い
柔軟アクチュエータ
 空気圧:大出力だが俊敏性にかける
 リニアモーター:俊敏だが出力が出ない
シーズ技術
 空気圧シリンダにリニアモータを仕込む

16:10 睡眠時の気道閉塞症状を軽減する頸部位置推定および頸部昇降機能付き枕デバイス(奈良先端大 西村祥吾)
睡眠時のいびき・無呼吸状態を改善するデバイス。枕型で、圧力センサによって寝ている姿勢や頭の位置をセンシングし、16個のエアバッグを制御することによって気道を確保する。
姿勢判別には、圧力センサの値を特徴量とした機械学習(Random Forest)で行う。動作時は頭と頸部のエアバッグを動作させ、頸を押し上げることで気道を確保する。

16:30 育児支援ロボットで創る開放的子育てスタイル(電気通信大学 阿部香澄)
育児支援ロボット。遠くから子供とふれあえるロボットで、祖父母に孫を見てもらうためのテレプレゼンスロボット。自動的に子供を追跡してそちらの方を向く。遠隔操作も可能。ビデオチャットをしながら子供と遊びができる機能を搭載。ビデオチャットだけだと子供が飽きて続かない。子供の興味を引きながら、母親以外とふれあえるようにすることが目的。開発の際の苦労話や注意点などもあった。

12799263 journal
日記

aitoの日記: 5/19-20 International Symposium on Ultra-Realistic Acoustic Communication@蔵王

日記 by aito

5月19日

Keynotes
・Ercan Altinsoy, “The role of the spatial audio on the plausible multimodal scene generation: From wave field synthesis to audio induced vibration reproduction”
感覚器から得られる情報量は、目、耳、触覚でそれぞれ10^6, 10^4, 10^2 bit/sぐらいだが、脳が処理できる情報量は10~100bit/s。感覚を脳で処理するためには情報を選ばなければならない。それぞれの時間解像度は、25, 2, 5msぐらい。
3Dオーディオシステムに対する要求
ステレオ→サラウンド
バイノーラル聴取
波面合成
Implementation Diffculty
スイートスポットの問題
Audio Induced Vibration Production
 さまざまな音楽について、振動フィードバックの効果を調べる

・Satoshi Oode, “Measurement of spatial impressions and types of emotion evoked by sound”
8k放送のオーディオフォーマット
22.2chサラウンド ITU-T BS.2051, BS.2076
「感動」の計測と分析
 感動を Excitement, Heartwarmth, Chill の3つに大きく分類
 オーディオチャネル数とこれらの感動との関係を重回帰分析
超臨場感メーター
 チャンネル数と音響信号から感動の度合いを推定して表示する

・Yuto Saito and Akira Omoto, “Introduction of amplitude panning into physically assured sound field reproduction system”
波面合成、アンビソニックス、バイノーラルなど:物理的方法(理論的)
5.1chサラウンド、22.2サラウンドなど:心理的方法(技芸的)
これらのシステムを統合して1つのシステムで両方を実現する
指向性マイクロホンアレイとスピーカアレイの組み合わせ
 心理的方法:直接再生 マイクでとった音を対応するスピーカから流す
24chマイクと音響樽の組み合わせ
 物理的方法:BoSC
それぞれの方法が実際のITD,ILDとどう違うかシミュレーション
 低域ではBoSCの方がいいが、高域では直接法の方がいい
音源方向については、水平面ではBoSCと直接法は同じぐらい、正中面では直接法がやや良い
ハイブリッド法:低域ではBoSC、高域では直接法を使う
Variable Refrection Acoustic Wall System (VRAWS)

・Yukio Iwaya, Shoya Yarimizu, Makoto Otani, Takao Tsuchiya and
Junfeng Li, “Discrimination of sound fields different in spatial aliasing”
音場再生システムではスピーカの間隔が十分短くないので高域でエリアシングが起きる
Binaural Room Impulse Response (BRIR)の計算:頭の周りの仮想球に基づく
さまざまな条件による聴取実験により、4kHz以上の帯域における空間エリアシングは印象に大きな影響を与えないことがわかった

・Craig Jin, “Consideration of High-Fidelity Spatial Audio Systems: Loudspeaker Arrays and Headphones"
球形マイクロホンアレイについて。球を2重にすると性能が上がる。
周波数と指向性の関係
sparse recovery による音場解析:実質的な解像度を上げることができる

球面調和関数による分析のドメイン内で処理をする
スパース分解による分析 2次正則化による
 (辞書が必要)
Lp-norm解とベイジアン解の関係
Subspace denoising

・Filippo Fazi, “Loudspeaker Arrays for Sound Reproduction”
スピーカアレイによる特定位置での音の強調とキャンセル
コンパクトなスピーカアレイ
スピーカアレイに指向性を作るためのフィルタの計算
音響ホログラフィとの関係
応用:personalized audio 特定の人だけに音を届ける
 特定の方向だけにゲインがあって残りは0となるようにフィルタを設計すると、ゲインのある方向で低域が減衰する
 低域の音圧レベルと指向性のトレードオフをどう調整するか
応用:トランスオーラルオーディオ
 従来は2スピーカで実現するが、多くの空間的エリアシングが起きる
 多数のスピーカを使うと性能改善
 カリフォルニアの4Dシアターで使われている
 聴取者トラッキングを行うトランスオーラルシステム
応用:多層円形/半円形アレイ
 解析的なフィルタ設計が可能
 2つの半円形アレイを使う(double array configuration)
    半円形アレイによる音響ホログラフィ
応用:巨大球形アレイ
 40チャネル球形アレイ
応用:S3A Vision
 オブジェクトベースの音場再現

・Makoto Otani, Yuki Fujii, Hikaru Watanabe, Takao Tsuchiya and
Yukio Iwaya, “Physical and perceptual effects of spatial aliasing in sound field reproduction”
ホイヘンスの原理による波面合成
Fresnel-Kirchhoff拡散方程式
 カージオイド型の指向性で音を収録したときの再生原理
まじめにやると10000点以上でサンプリングしなければならない
 観測点が少ないと空間的エリアシングが起きる
様々な観測点数で音場再現して空間的エリアシングの影響を調べた
 バイノーラル伝達関数を調べたところ4kHzが再現できる観測点数まではなんとか。それ以下だと再現性が良くない

ナイトセッション
・Junfeng Li, Risheng Xia, Yoiti Suzuki and Yonghong Yan, “3D sound technologies for future interactive communications over the internet”
CASでの3Dオーディオ関係の研究紹介。

・Yoshifumi Kitamura, “Reactive interiors: designing multimodal aware spaces”
北村先生の持ちネタ、Transform Tableをはじめとした研究の紹介。

5月20日
・Ruediger Hoffmann, “Roots of articulatory speech synthesis in history”
最初にバルクハウゼンの業績について。バルクハウゼンの日本訪問。
ドレスデン工科大での音響・音声に関する歴史コレクション
 ベルリンのフランツ・メトロ(音声学者)の影響
 ハンブルクのジュリオ・パンコンチェリ=カルツィア(音声学)
歴史的な音声合成
 クリスティアン・ゴットリープ・クラッツェンシュタイン(1723-1795)
  音声合成器の試作(5母音)
  2006年にレプリカを作成。ラテン語の原書のドイツ語訳も出版
 ヴォルフガング・フォン・ケンペレン(1734-1804)
  ダイナミックなモデル(単語の合成が可能)
19世紀の音声合成応用
 ヨハン・ネポムック・メルツェル(1772-1838)
  ピアニスト、機械オーケストラ作成
  しゃべるオートマータ作成(「パパ」、「ママ」) 特許取得
 ドイツの人形メーカー、ゾンネベルクでしゃべる人形を量産
 ヒューゴ・ヘルベ
  しゃべる絵本(1878特許)
  ドイツ語・英語・フランス語・スペイン語で出版
 ヨハネス・ケッセル(1839-1907)
  聴覚学者 ろう者教育
  1899ミュンヘンでの会議 聴覚が残存する聴覚障害者への発音練習の提案
  音声合成器の利用(現在でいうCAPT)
パラダイムシフト
 ヘルムホルツによるパラメトリック音声合成
 素片接続音声合成器(テープを使う)1964
 千葉・梶山の音声生成モデル
 荒井先生の音声合成器

・Peter Birkholz, “Recent progress in articulatory speech synthesis”
1983 DECTalk → 1985 ダイフォン合成→1988 素片選択合成
 自然性は向上したが柔軟性は失われた
 調音合成は(うまくやれば)自然な音声と柔軟性を両立できる
VocalTractLab システム
 調音器官の運動に基づく音声合成器(音響管モデル)
  声道の形を比較的正確に模擬
声道の3Dモデル(Birkholz, 2013, PLoS ONE)
声道断面積関数の抽出
声帯振動
声帯の新しいモデル(bar-massモデルでbarが平行でない)
 声帯振動の変化による声質の変化を再現できる
シミュレーション(等価回路による)
 音響管の1セクションを表す等価回路を接続して声道全体のモデルを作る
 雑音源を表すために"Enhanced Area Function" を提案
 調音結合モデル MRIの観測に基づく
2次的な韻律特徴の操作
 声道長の変化
 鼻音性
 調音努力(?)の強弱
 母音・子音のcentralizationの変化
Electro-optical stomatography (EOS)
 Electropalatography (EPG)とOptopalatography(OPG)を組み合わせた計測→唇・舌の高精度計測
軟口蓋の運動計測
 鼻孔にマイクロフォンをつっこんで音響計測
応用:喉頭摘出者に対する代替音声
 話者の調音器官を詳細に計測し、それに基づいて音声合成

・Kazuhiro Kondo, “Recent advances in the estimation of speech
intelligibility using objective measures”
DRT(Diagnostic Rhyme Test)
 日本語DRT:音素環境、単語親密度などを考慮
 安定して推定可能、実験の自動化が容易
 だがやはり主観評価はコストが高い
音声認識を使った了解度試験
 DRTと同じ対象に対して2肢強制選択させる文法を使う
 雑音環境に対してマルチコンディション学習
 精度は高いが、学習や認識の実行が大変
回帰による客観評価
 いくつかの特徴量から回帰によって了解度を算出
  セグメンタルSNR、PESQ MOSなどを使う(推定にクリーン音声が必要)
 計算量は音声認識より低い
単語対の比較による推定
 単語テンプレートをサブバンドに分けて距離計算
クリーン音声を使わないDRT了解度推定
 クリーン音声を推定して、それに基づいて推定
 クリーン音声を使う方法よりは制度が低いが、そこそこの性能

・Bartosz Ziolko and Magdalena Igras, “Speech segmentation and quasi-linguistic information in speech processing”
最初に音声セグメンテーションの話題。
様々なセグメンテーション(音素、音節、話者、音声/非音声、など)
音素セグメンテーション
 入力音声をサブバンドに分け、サブバンドのパワーによってランキング
 心理聴覚ウェーブレット分析
 音素境界の正しさに対してメンバーシップ関数を設定
文セグメンテーション
 文境界推定の音響特徴・言語特徴
 構文的/リズム・イントネーション/生理的要因
 音素長分布
  文末の音素は長く、パワーも大きい→文末を示す特徴として使える
アクセントにはパワーとF0が有効だが音素長は関係ない
つぎにさまざまなポーズによる音声認識
 respiration(息継ぎ), intentional(意図的), unintentional(言いよどみ)
句読点とポーズの関係
  読み上げでは句読点と関係ないポーズはほとんどないが、自由発話では多い
 filled-pause
自由発話におけるDisfluencyの種類と数:言い直しが多い
音声を聞くときに聞きづらくなる要因は何か(アンケート):filled-pauseがもっとも多い
感情音声について
 ポーランド語の感情音声データベース
 緊急通報に特化した感情モデルと音響特徴
 normal, sad, angryの3感情とF0
 人間と機械による感情認識結果:あまり良くないが、人間による認識結果も良くない
  音声だけによる感情認識は難しい
皮肉のイントネーションの音響特徴
 モダリティ:音声、言語、ボディランゲージ、過去からのコンテキスト
 音素長、パワーの影響は言語によらないが、F0の影響は言語依存

・Tatsuya Kitamura, “Effects of emotions on configuration of the speech articulators”
感情と音声生成。感情音声生成の「副作用仮説」
「感情」の階層的分類。(Affection→(emotion→(primitive basic) feeling→(social intellectual))
副作用仮説:感情による音声の変化は、感情による副作用によって調音運動(など)が影響されることによって起きる。感情によって調音ターゲット自体が変わるわけではない
これを実証するため、しゃべった場合/しゃべらなかった場合の調音器官の配置を調べる
MRIを利用 平常、怒り(hot)、喜び、悲しみの発話(プロ俳優による)
コンテキスト中の「えー」の発話に感情を乗せる
「えー」の発話をする時間と、発話をしないで表情だけ作る時間で調音器官の配置を調べると、よく似ている→感情によって(表情に伴い?)調音器官の筋肉が異なるパターンで緊張し、その影響で音声が変わる
感情に応じた器官のようすは話者(異なる性別)によって異なる

・Motoyuki Suzuki, “Lyrics recognition from singing voice dealing with insertion error”
Query-by-Singing MIR。歌詞の認識においては、音素長が通常音声と異なる(長い)ためにミスマッチが起きる。そのため通常のHMMを使うと単語挿入誤りが多発する。
対処法として、言語モデルに強力な制約を入れる方法(データベースにある歌詞しか認識しない)と、モーラ境界を音符境界にあわせる方法があり得る。
言語モデルを使う方法。FSAによって歌詞DBにある単語連鎖だけを認識する。
構文的に意味がある部分をまとめて扱うために、品詞に基づくルールを導入。また、小節、モチーフ、休符などを考慮する。
音符とモーラを対応させるため、音符境界に特別なフレームを挿入し、HMMの境界に特別な境界状態を挿入する。境界状態からは音素境界フレームが確率1で生成されるようにする。

・Seokjin Lee, “Estimation of number of bases for nonnegative matrix factorization in automatic music transcription applications”
自動採譜。入力信号をNMFで分解して基底とアクティべーしょんに分ける。NMFの基底数をベイズ推定できる(variational NMF)が、計算量が多い。音符の推定に使っていることを利用したい。
そのため、分解前の行列Vに対してV^T Vのランクを推定する(ランクが基底数になる)。提案法では、最初の音符の分析結果から雑音行列の大きさを求め、それを使って推定精度を上げる。

typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...