パスワードを忘れた? アカウント作成
13379922 journal
日記

aitoの日記: IIH-MSP2017@松江 2日目

日記 by aito

2017/08/14

Keynote Speech II
Flexible, Personalized and Expressive Speech Synthesis Based on Statistical Approaches
Prof. Takashi Nose
Tohoku University, Japan
能勢先生による音声合成技術のレクチャー。
・音声合成のさまざまなアプリケーション。音声対話システム、オーディオブック、歌声合成、ゲームなど
・TTSのさまざまな種類。単語置換、ダイフォン、ユニット選択、統計ベース
・統計的音声合成の概要
・音声のパラメータ化(音声→スペクトル+F0→音声)
・HMMとDNNによる合成の枠組み
・合成音声の個人化:平均声と話者適応
 HMMとDNNそれぞれの話者適応手法
・スタイル制御
 HMM:スタイルベクトルによる制御
・特定の単語を強調する:F0制御
・柔軟な音声合成:テーラーメード音声合成
 各単語のF0を手動で変更する
・各種アプリケーションは時間の都合で名前だけ。
質疑応答は結構活発で、「特定の歌手の歌声が合成できるのか?」などの質問があった。

Session B01: Advances in Speech and Language Processing

Dialog-based Interactive Movie Recommendation: Comparison of Dialog Strategies (Hayato Mori et al)
千葉先生。対話による映画の推薦システム。ユーザの見たい映画に関する情報(主演、監督など)を提供するために、システムがあらかじめ決められた情報を決められた順番に提示する場合と(システム主導)、対話を通じてユーザが聞きたい情報をその都度指定する場合(ユーザ主導)を比較。主観評価の結果、「簡単」かどうかについてはシステム主導が有利だったが、その他の項目(使いたくなるか等)についてはユーザ主導の方が高い評価。

Response Selection of Interview-based Dialog System based on User Focus and Semantic Orientation (Shunsuke Tada et al)
多田君。システムがユーザにインタビューする音声対話システムで、ユーザの発話に含まれるキーワードについてシステムが突っ込んだ質問ができるようにする。このときに、キーワードについてユーザがどのような感情を持っているか(ポジティブまたはネガティブ)によって、システムの質問の仕方を変える。キーワードの推定はCRF。ユーザ発話の感情推定結果から、システムが次にどのような質問をすべきか(オープン質問、キーワードについての質問(中立・ポジティブ・ネガティブ)を推定する。キーワード抽出の精度は40%程度。質問タイプの推定精度は8割以上。

Development and Evaluation of Julius-Compatible Interface for Kaldi ASR (Yusuke Yamada et al)
山田君。Kaldiのデコーダに皮をかぶせてJuliusのモジュールモードと互換性を持たせた。インプリメントはC++ with Qt。Kaldiで認識するとJulius付属のDNN-HMMよりも高性能。

Voice Conversion from Arbitrary Speakers Based on Deep Neural Networks with Adversarial Learning (Sou Miyamoto et al)
宮本君。声質変換にいま流行のGANを使ってみた。声質変換の品質を上げるには分散補償が必須だが、まじめに分散補償をするには発話の全情報が必要なのでリアルタイムにならない。そこでGANを使うと分散が勝手に補償されないかな~と思ったがそこまでではなかった。

Evaluation of Nonlinear Tempo Modification Methods based on Sinusoidal Modeling (Kosuke Nakamura et al)
中村君。以前からやっているテンポ変換手法の評価。正弦波モデルを使って、各楽器音の構造を崩さないように音を伸び縮みさせる。正弦波で表現できない部分を残差で表現する方法を以前提案してみたが、比較評価してみると残差の利用は性能を向上させない。

A Study of 2D Photo-Realistic Facial Animation Generation Using 3D Facial Feature Points and Depep Neural Networks (Kazuki Sato et al)
テキストからの顔動画像生成。以前はピクセルベースで生成していたが、今回は顔の3Dモデルの特徴点座標とモデル上のテクスチャを推定することで2次元顔画像を生成する。学習のための顔特徴点とテクスチャの取得はKinectを利用。ほどほどの結果だが、口の動きが音声にシンクロしていない。

An AFK-SVD Sparse Representation Approaches for Speech SIgnal Processing (Fenglian Li et al)
No Show。

次のセッションは発表者も座長もいない。しばらくしてから座長は来たのだが、発表者は・・・?もしかしてNo Sessionかと思ったが、時間ぎりぎりに人がたくさんやってくる。準備に時間がかかり、15分遅れでスタート。

Session B03: Multimedia Security and Its Applications

A Survey of Reversible Data Hiding Schemes Based on Two-dimensional Histogram Modification (Chin-Feng Lee et al)
サーベイ発表なんだが発表してるのはどう見ても女子学生。内容は画像可逆電子透かしの紹介。2次元ヒストグラムに基づく方法を説明したが、時間が短いのでちょっと無理がある。同方法を使った4種類の手法について、埋め込み容量と画像劣化を比較評価。

Steganographic Image Hiding Schemes Based on Edge Detection (Chin-Feng Lee et al)
人間の目は変化の大きい部分に起きた微小な変化に鈍感なので、画像のエッジ部分にデータを埋めれば品質を下げないのではないかという話だが、よくある話のような気がするのは私だけか。埋め込み手法はLSB置換だが、LSB置換で画像の変化率に応じて埋め込み強度を調整する話ってずいぶん前に参照した気がする・・・と思ってよく聞いていたら従来法のサーベイだったようだ。

A New Data Hiding Strategy Based on Pixel-Value-Differencing Method (Hui-Shih Leng)
いきなり手法の説明から入ったのでついていくのが難しかったが、2つのピクセル値の差に対してQIMみたいな手法で情報を埋める方法らしい。細かい手法はよくわからない。

Data Hiding Scheme Based on Regular Octagon Shaped Shells (Hui-Shih Leng)
同じ人。従来法の説明から入っているが、何の目的で何をしてるのかの説明が一言もないので理解が難しい。去年ICSIPで聞いた、あるピクセルとその近傍の値の組み合わせに情報を隠す方法の説明をしているらしい。近傍の値の組み合わせが、六角形か八角形かなどの変種がある。提案法は、6×6のマトリクスの角を落とした八角形の組み合わせに情報を5ビット載せる(?)。

A Web Page Watermarking Method using Hybrid Watermark Hiding Strategy (Chun-Hsiu Yeh et al)
HTMLに透かし情報を埋める従来法として、タグの大文字小文字、引用符、アトリビュートの順番、空白文字の表現方法などに情報を埋める手法が提案されている。提案法としては、埋め込み情報をハミング符号で符号化した後、複数の方法でHTMLに埋め込む。抽出の時には複数の方法で抽出した情報の間で多数決を取った後、ハミング復号する。どれかのHTMLの属性を変更する攻撃を受けても、冗長度が高いので高い確率で復号できる。

A Study of the Multi-Organization Integrated Electronic Attendance System (Xi-Qing Liang et al)
台南市での統合電子勤怠管理システム。WebITRというのを使いたいが台南市の実態に合わないので、それに合わせたいという話らしい。台南市の各部署の勤務時間とか給与体系、残業規制などの話があって、研究発表と言うより開発レポート。こういう開発ってSIerで日常的にやってるんじゃないのかなあ。

Integrated Health Check Report Analysis and Tracking Platform (Tzu-Chuen Lu et al)
同じ人が続けて発表。一般人向けの健康診断結果を統合的に管理・分析・追跡するシステムを開発した話らしい。個人向けに診断結果と異常の説明、アドバイスなどを行う。

An Independence Mechanism Design for the Software Defined Device (Ling-Hsiu Chen et al)
この発表はこのセッションのプログラムにない(あとから追加されたらしい)。次の発表と同じ人の発表。IoTみたいなデバイスの開発用にグラフィカルなプログラミング環境を作ったという話らしい。ロボットを制御するでもビデオを流していた。

A Content Analysis of Mobile Learning on Constructivism Theory (Ling-Hsiu Chen et al)
No Show。 前の発表と入れ替えたということか?

このセッションでは座長が質疑応答を一切やらないというスタイル。こういうのはアリなのか?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

計算機科学者とは、壊れていないものを修理する人々のことである

読み込み中...