アカウント名:
パスワード:
ヨーロッパ言語学の繊細さからすれば、物量に頼ったおよそエレガントでない作戦ですが、
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常
コーパスって (スコア:0)
検索しても出てこないぞ
Re:コーパスって (スコア:1)
何するもの?
口語の使い方文例スタックってこと?
「キモい」とか「欧米かヨ」みたいな言葉がどう使われているのか
を調べるターゲットって事なのかなぁ?
Re:コーパスって (スコア:5, 参考になる)
これから形態素解析やら日本語入力の辞書とかが出来たりします。あとは人口無能とか。
大量の文章から前後の単語(あるいは品詞)の接続の頻度を抽出して辞書を作ります。
それらを新しい文章適用するわけです。
日本語入力で「かのかわ」は「彼の川」が正解ですが賢い辞書が無いと、香の川、蚊の川、彼の皮(!)、とかになります。
また、検索エンジンでメイドと入れてもホームメイドやマーメイドがかからないものそのお陰です。
特定の単語が現れる文章に非常に高い確率で表れる単語を集めれば文章同士の類似性が解りますね。
ほぼ無限の言語資源と演算能力があればチューリングテストで解らないヤツが出来るのではないかと夢想。
これらの事をするためには特定分野に偏らない大量の良質な文章が必要だったりします。
そいうものは元来新聞ぐらいしかなく、利用は高価だったようです。
また、ライセンス的にクリーンでないとせっかく作っても再配布に制限がついたりするんですよね。
ですから、このコーパスを直接使わなくても将来必ずどこかでその恩恵を受けると思います。
個人的には税金を投入するのはとても良いことだと思います。
この辺はインターネットの発展と共に超絶重要な分野になったと思いますが、微妙にマイナーですよね・・・
#以前IPADICのライセンス調べててICOTまで突き当たったとき、色々考えさせられました。
Re:コーパスって (スコア:3, 参考になる)
アメリカで独自の発達をみせた言語学の一分野があって
統計的手続きによって、語の結合に何らかの法則性が発見・検証できないか
マイニングするためのデータ群
それがコーパスですね
演繹的というよりは帰納的で、
モンテカルロ法っぽいともいえるでしょうか?
ヨーロッパ言語学の繊細さからすれば、物量に頼った
およそエレガントでない作戦ですが、
円周率の求め方の歴史 [wikipedia.org]などとも同様に
単純な作業はコンピュータとの相性も良いので、
この研究成果は、毎日使ってる日本語入力FEPにも
すぐさま反映されうる、ナイスなインパクトをもった一大事件だと思います
//庭には二羽鶏が居る
Re:コーパスって (スコア:2, 興味深い)
今ではむしろヨーロッパの方がコーパス言語学が盛んだと聞きました。
記憶があいまいなので調べてみましたが以下が参考になるかと思います。
言語理論と言語資料 —コーパスとコーパス以外のデータ [tohoku.ac.jp]
日本では計量国語学会がありますし、
英語やその他外国語研究の方々がコーパスを使っている場合もあります。
ただし言語学としての日本語研究ではなお少数であり、あくまで補助的に利用している感じがします。
今迄日本語の大規模なコーパスは存在しなかった、もしくは気軽に入手できなかったので、
なかなか本格的な研究がやりづらかったという事情はあるかと思います。
そういう意味ではこのコーパス構築のニュースはとても意義深いものだと思います。
今までは言語学者や国語学者が個々に自前簡易コーパスを構築していたわけです。
だから計量的研究を始めるためにはその膨大な構築コストに直面して、
やっぱ面倒だなぁ、それくらいなら内省だけでも十分じゃない? と思っちゃったり。
最近は「日本語話し言葉コーパス」とか出来ましたが、今回は書き言葉なので期待はより大きいと思います。
20万円くらいならお買い得な感じ?
Re:コーパスって (スコア:2, 興味深い)
Re:コーパスって (スコア:1, 参考になる)
例えば音声認識装置の性能(認識率)を評価したりするには,多くの発話を集めた音声コーパスが必要になるんです.
(音声コーパスの場合は,集めた音声データにラベルをつける必要はありますが)