パスワードを忘れた? アカウント作成
12518669 journal
日記

aitoの日記: 9月17日 音響学会2日目(ポスターセッション電気音響・聴覚音声、音声A、スペシャルセッション電気音響・音響教育)

日記 by aito

ポスターセッション 電気音響・聴覚・聴覚音声
2-P-19 音声とマスキング用雑音の到来方向を考慮した主観的等価値によるスピーチプライバシー評価の予測手法(山口大)
音声と雑音を独立な方向から流したときに、聴取者がどれだけ音声を聞き取れるのかについての予測式を作成。音声・雑音のレベル差や到来方向の差などを元にフィッティングを行う。うまく行っているようだったが、評価がクローズドなので、一般の場合にどこまでうまく行くのかわからない。

2-P-23 非可聴域を用いた音信号通信における残響・パワー減衰に対する頑健性の検討(立命館大/山梨大)
以前から森勢さんがやっていた音情報ハイディングによる通信。マイクとスピーカの距離が離れると減衰や残響によってBERが上がるので、それに対応。減衰に対応しても性能は上がらない。残響に対応するために、隣接するフレームで利用する周波数帯をずらして残響の影響を避ける方法を利用。これによって遠隔での送受信時の性能を向上できた。無線通信みたいなパイロット信号による通信路特性の推定をやればいいのにと思った。

2-P-32 異なる振幅変調方式を用いた骨導超音波補聴器の話者感情伝達性能の評価(国語研)
籠宮先生。骨導超音波方式の補聴器では通常音声を振幅変調で超音波領域に持って行くのだが、キャリアの影響で高周波のノイズが聞こえる。そこで通常のAM変調ではなくキャリアがないDSB-SC変調を試してみた。しかしDSB-SC変調音声を聞いた場合は歪みが大きすぎて了解度が下がることがわかっている。この発表では話者の感情が伝わるかどうかについて調べてみたが、それもあまりよくなかった。

2-P-35 ベスト型体感式ウーファーによる低温増幅の検討(会津大)
体に振動を与えることによって、実際に耳に提示する低音が大きくなくても低音が大きい感じを与えたい。ということでArduinoで制御してアクチュエーターで体を振動させるものを作ってみた。方法は適当で、あまりきちんとした評価も行ってない模様。

2-P-37 周波数間無音検出メカニズムの検討III 聴性脳幹反応の観察(九州大)
2つの音の間に無音区間があるかどうかの判断は、2音の周波数に差がある補と難しくなる。それについての実験結果と、脳波計測結果の関係。同じ周波数だと後続音の方の脳波ではオンセットが見られない(異なる音として知覚されていない?)が、周波数が異なる場合には後続音でもオンセットが見られる感じ。周波数が同じ場合と異なる場合で、脳内での処理が違っていることを示唆する。

音声A
2-2-1 言語理解WFST並列接続に基づくクロスリンガル音声対話(NICT)
岡本さん。ロボットなどのエージェントを使った多言語対話システム。音声認識・合成と対話管理機能をWFSTで全部合成する。一つのエージェントが複数の言語で複数の話者と一連の会話をすることができる。シナリオWFSTを共通で1個持っておいて、各言語の音声認識・理解部分のWFSTと接続する。

2-2-2 聞き手の反応を考慮した発話計画を用いた音声対話システム(千葉工大/早稲田大)
藤江さん。一発話で伝えられない量の情報(新聞記事など)を音声で伝える場合、従来の一方的な伝達は必要な情報が得にくく、対話による伝達はユーザの負荷が高い。そこで、システムの発話に対してユーザが相槌や聞き返しをすることで、ユーザの負荷が低い情報伝達ができるようにしたい。そのときの情報伝達のために、事前に発話計画を作っておき、ユーザの反応と発話計画に沿って発話をしていく。発話計画は、発話内容がユーザの反応(相槌、聞き返しなど)によって分岐する有限オートマトンみたいな奴。今回の研究では情報源はニュース記事で、これを文構造などに従って分解してネットワークにしていく。今までになかった発想だと思う。

2-2-3 母語における話者交代の実時間性と心的負担軽減モデルの検討(千葉大/早稲田大/工学院大)
市川先生。母語で会話するときには外国語よりも心的負担が小さいことを説明するモデル構築の一環。今回は、発話交代に適したタイミング(TRP)について調べた。TRPを予測する情報としては、単語・文構造に加えてF0も重要。F0による予告情報がいつ獲得されているかについて、さまざまな説がある。5歳児・6歳児について調べたところ、ここまでにはTRP制約が獲得できているようだ。母語におけるTRPの心的モデル構築に向けた様々な条件についての提案。最初にプロソディによってTRPが予告されて聞き手はTRP候補を生成し、話者の言語情報によって聞き手はTRPを確定し、発話阻止条件を解除してしゃべり始める。

2-2-4 ポスター会話における音響・視線情報の確率的統合による話者区間及び相槌の検出(早稲田大/立命館大/京大)
スマートポスターボードでの話者区間と相槌の検出。話者区間検出では、音声情報と視線(頭部方向)情報を統合して検出を行う。視線情報は、説明者と聴取者がどこを見ているか(相手かポスターか)の組み合わせを使う。視線情報は、SN比5dB以下の状況において有効。同じような枠組みで相槌の検出も行う。このときの結果も話者区間検出と同じく雑音環境下で有効。

2-2-5 マルチモーダル情報を用いたユーザの対話意欲推定のための音声特徴量の効果の分析(東北大)
千葉君。対話をしているときに、ユーザがどのくらい話したいと考えているかどうかを自動推定。音声・画像・言語の特徴量がそれぞれどれだけ有効かを検討。音声ではF0の情報が有効であり、言語の特徴はあまり有効ではない。

スペシャルセッション 電気音響/音響教育
2-5-4 音響実務者へ向けたデジタル信号処理セミナーのノウハウ(栗山譲二、J.TESORI)
実務者向けにセミナーを行っている会社の人。対象はライブPA、放送局、設備設計、機器設計・販売などの人たち。受講者に投資する時間と費用以上の学習効果を持ち帰ってもらうため、様々な工夫をしている。異なる技術知識が最終的に結びつくような教え方、図を中心にした構成、リアルタイム処理による実習など。
「FFTファースト」FFTをいかに数式を使わずに説明するか。具体例の提示(ノンミニマムフェイズ現象など)。iOSデバイスを使ったFFT体験。
伝達関数の概念の説明。線形時不変システム。周波数領域で話をする。伝達関数の測定実習。
「デジタルブートキャンプ」標本化、量子化、信号処理、圧縮、測定など。IIR/FIRフィルタ実習用miniDSPを利用。演算処理によるオーバーフロー(固定小数点/浮動小数点演算)。ΔΣ変調なども扱う。

2-5-5 Pure Dataを用いた音響・音楽信号処理の実習教育(小泉宣夫、東京情報大)
Pdの基本的な説明。ボタン、スライダー、グラフなど。プログラムの階層化とブロック化。
教育への活用。プログラミング(パッチの作成)、体験学習用教材(パッチを例題として提供)など。
信号の合成(倍音合成)、パワースペクトルの表示、イコライザの作成、楽音合成(波形テーブルシンセサイザ)。サンプリング。MIDI連携(コントローラーとして使う)。エフェクター。
画像情報との連携。Arduinoとの連携。

2-5-6 聴覚実験における主観的反応を記録するモダンGUIシステムの作成(会津大)
PureDataとTouchOSC(iOSアプリ)を使った実験環境構築。サーバでPdを動かし、iPadでTouchOSCによるGUIを作って、間をOSCプロトコルで通信する。GUIはいいけど、信号処理以外の全部をPdで書くのは辛そうだなあ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

読み込み中...