パスワードを忘れた? アカウント作成
326337 journal

aitoの日記: 5月16日 SIGSLP/SIGNL@東大まとめ

日記 by aito
途中から入場。

(3) 文書上の潜在トピックを捉える事象の検討とその応用(お茶の水女子大)
LSIやPLSIにおける「単語」を「イベント」(単語列など)に拡張した潜在意味解析。実行が大変そうだ。イベントとして,係り受けがある単語(名詞と述語,任意の自立語)の組,文内で共起する自立語の組などいくつかを検討。トピック推定はLDA。楽天トラベルのレビューを対象にした文書検索課題で評価。結論としては,接続詞などで文を区切り,係り受けがある単語間の共起を使うのが良いとのこと。また,要約課題での評価では,係り受けのある単語の組のうちヒューリスティックに種類を選んだものが良い性能だった。

(4) 多言語トピックモデルによる言語横断リンク検出(神戸大)
江口研。多言語トピックモデルであるCI-LDA,SwitchLDA,CorrLDAの性能比較。CI-LDAは2つの言語が同じトピックを共有するモデル,SwitchLDAは同じトピックから2言語のどちらが生成されるかを別の二項分布で制御するモデル,CorrLDAは2言語の片方でトピックを推定してそれをもう1つの言語で利用するモデル。実験の結果CorrLDAが高性能だった。2言語を同様に扱うのに,非対称なモデルの性能が最も高いという直観に反する結果。2言語の単語分布とトピックを同時に推定するのが難しいということなのかもしれない。

(5) 音声入力型大学情報検索システムに対するベイズリスク最小化音声認識の適用(同志社大)
同志社大のホームページを音声で検索するのがタスク。各ページでの重要単語の認識性能を高めるようにベイズリスク最小化デコーディングを行う。その後の検索はベクトル空間モデルベース。ベイズリスクの重みは,自立語が100で機能語が1という適当な値。重みを導入することで検索精度がちょっと上がる。まだこれからっぽい感じ。

(6) 機械学習による近代文語文への濁点の自動付与(奈良先端大)
松本研。近代文語文では濁点がない場合が多いので,それに濁点を自動付与する方法。単純な系列ラベリング問題なので楽しそう。推定には,対象文字の両側の文字情報だけを使う。素性は文字n-gram,文字種n-gram,濁点化可能性n-gramなど。また,漢字をクラスタリングしたクラスn-gramも利用。学習データは「太陽コーパス」。そういうのも整備されてるんだと感心した(発表者には関係ないが)。PAアルゴリズムで分類器を学習して識別。近代文語文自体に対する質問が多かった。

17:00 辻井潤一先生特別講演
「言語と知識:テキスト情報への粒度の細かいアクセスと言語処理」
久しぶりの辻井先生の講演。最前列で拝聴する。

背景
・自然言語の内的処理とコミュニケーション的処理
・言語と知識:言語が表現するもの(MITでの2つの学派)
        SHRDLU:場面と状況が対象を限定する。言語はそれ自身で独立したものではない
        言語的なもののautonomy:言語に固有の処理がある
・機械翻訳システム研究(Muプロジェクト)
        「理解」に至らなくてもある程度処理ができる。が,
        日英翻訳などの場合には構造間で対応させることが難しい
・言語理解
        言語の構造から「理解」に至る部分に跳躍があり,難しい
        J.フォーダー:The Modularity of Mind
                言語の構造まで(周辺系)は科学の対象になりうる
                中央系は,非限定的な情報参照があり,科学の対象として研究できない
知識と言語
・辻井先生の研究
        周辺系:文法理論に基づく深い構文解析器の研究
        中央系:生命科学のためのテキストマイニングの研究
・Bio-Text Miningの基礎技術:言語と外的知識を結ぶ
        言語の領域:テキスト
        知識の領域:言語とは独立に設定できる領域
・言語と言語以外との統合
        情報統合を行う一般的な情報処理機構
・Semantic Web
        単語の意味に固有なID,オントロジー(人手)
・Entityによる情報統合(対象に固有のIDを振る)−言語の外の世界を規定する
        MS AcademicSearchとかCiNii: 研究者,研究組織,文献
        生命科学文献では,
                タンパク,遺伝子,化学物質,薬名,疾病など
                症状,事象
・短期間の成果を求めるよりは,辞書,知識などの言語資源,基本的言語処理ソフトウェアを系統的に構築する必要がある。
・GENIAコーパス:分野に固有の,知識レベルのテキストアノテーション
        計算関係の定義
        言語の分野,テキストタイプへの依存性
・GENIAの事象オントロジー
        さまざまな表現で表現される事象に固有のIDを振る
        同じ事象のさまざまな表現に関するメタ知識

細かい粒度の情報アクセス
・文献検索,情報検索,Webサーチ vs. 質問応答システム
        検索単位:パラグラフ,文,句
・事象間の関係と,それに関連した文献の位置との関連をつける
・Textual semantics と User semantics

将来課題
・言語の合理的な理論と機械学習的手法の融合
・言語的な構造・意味と推論との統合
・言語処理の2つの段階の,より有機的な連携

・分野適合の技術/分野に依存しない意味や知識資源
・人間による付記作業の低減

・異種テキストタイプ(ソーシャルメディアなど)の情報統合
・非言語的情報の統合,数値情報やデータベースとの統合
・言語処理のためのソフトウェア,計算環境の開発と共有
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...