アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
最初のバージョンは常に打ち捨てられる。
コーパスって (スコア:0)
検索しても出てこないぞ
Re:コーパスって (スコア:1)
何するもの?
口語の使い方文例スタックってこと?
「キモい」とか「欧米かヨ」みたいな言葉がどう使われているのか
を調べるターゲットって事なのかなぁ?
Re:コーパスって (スコア:5, 参考になる)
これから形態素解析やら日本語入力の辞書とかが出来たりします。あとは人口無能とか。
大量の文章から前後の単語(あるいは品詞)の接続の頻度を抽出して辞書を作ります。
それらを新しい文章適用するわけです。
日本語入力で「かのかわ」は「彼の川」が正解ですが賢い辞書が無いと、香の川、蚊の川、彼の皮(!)、とかになります。
また、検索エンジンでメイドと入れてもホームメイドやマーメイドがかからないものそのお陰です。
特定の単語が現れる文章に非常に高い確率で表れる単語を集めれば文章同士の類似性が解りますね。
ほぼ無限の言語資源と演算能力があればチューリングテストで解らないヤツが出来るのではないかと夢想。
これらの事をするためには特定分野に偏らない大量の良質な文章が必要だったりします。
そいうものは元来新聞ぐらいしかなく、利用は高価だったようです。
また、ライセンス的にクリーンでないとせっかく作っても再配布に制限がついたりするんですよね。
ですから、このコーパスを直接使わなくても将来必ずどこかでその恩恵を受けると思います。
個人的には税金を投入するのはとても良いことだと思います。
この辺はインターネットの発展と共に超絶重要な分野になったと思いますが、微妙にマイナーですよね・・・
#以前IPADICのライセンス調べててICOTまで突き当たったとき、色々考えさせられました。