アカウント名:
パスワード:
ちゃんと注意書き読もうよ。 正式版は態素解析・構文解析されるはずだから、使えるようになるでしょう。
本サイトでは全文検索をおこなっていますので、指定された文字列 を含むすべてのテキストが検索されます。例えば検索文字列に「リ ズム」を指定すると、「リズム」だけでなく、「アルゴリズム」や 「フォルマリズム」などが検索され、「国語」を検索すると「母国 語」「外国語」なども検索されます(本コーパスの正式公開版では、 単語を単位とした検索ができるようになります)。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
身近な人の偉大さは半減する -- あるアレゲ人
コーパスって (スコア:0)
検索しても出てこないぞ
英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)
「・・・弁当を・・」という文章が主にヒットしました.
『的を』と入力してみた.『射る』が検索されることを期待した.
「・・・目的を・・」という文章が主にヒットしました.
『どんだけ』と入力してみた.(いえ,ちょっと昨今の使い方についていけなかったので.)
3件の結果がでましたが,役に立ちませんでした.
検索のシステムにも改良の余地はあるでしょうが,現時点ではgoogleで使い方を調べたい語句をクォーテーションで囲んで検索した方がよっぽど有用です.
Re:英語のコーパスはあると便利ですが‥‥ (スコア:3, おもしろおかしい)
「・・・冷蔵庫に牛乳が・・」という文章が主にヒットしました.
『どんより』と入力してみた.
「・・・そばがすきだ・・」という文章が主にヒットしました.
『うってかわって』と入力してみた.
「・・・彼は麻薬を・・」という文章が主にヒットしました.
Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 参考になる)
ちゃんと注意書き読もうよ。
正式版は態素解析・構文解析されるはずだから、使えるようになるでしょう。
読んでませんでした...(ので,読んでみました) (スコア:1)
データのもととなる文章も今後追加されていくそうなので,正式版をみてみろということですね.
でも,完成は2011年.
・オンライン公開1(無償)
簡単な語の検索のみ,出力件数に制約(500件まで)
・オンライン公開2(有償:年間3000円程度)
高度な検索インターフェイスを提供,全出力をダウンロード可.
・データ全体の公開(アカデミック利用20万円程度)
利用契約を締結した後,DVD等で配布
(説明資料より)
というわけで,活用しようとすると有償なんですね.無償版でも十分使えるようにして欲しいですね.
Re:読んでませんでした...(ので,読んでみました) (スコア:1)
今やBNCはXMLデータベースになっていて、クライアントソフトで検索できるわけですが。
# 1000万語なんてのはコーパスとしては赤ちゃんみたいなもんです
Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)
というかこういう単純なやり方で上手くいかないのが日本語を計算機で扱う上で問題となっていて、
何をするにもまず日本語は単語に分割する必要があります。
単語に分割する為にはまずどんな単語があるかを調べる必要があるのですが、
そこで今回のようなシステムが役に立ちます。
例えば「猫」で検索すると前後の文字がかなりバラバラになっているから「猫」で単語になりそうだとか、
逆に「索」で検索すると前の文字は殆ど「検」になってるから「索」は単語じゃ無さそうだけど
「検索」という単語がありそうだとかがわかります。
こんな感じの学習は前もって(100%正しいかどうか定かでない)単語に分割されてると難しいので、
とりあえず文字単位での全文検索で公開ってのは普通だと思いますよ。
Re:英語のコーパスはあると便利ですが‥‥ (スコア:1, 参考になる)
おそらく勘違い…というと言いすぎですが、なんというか感覚のずれがあります。
今回のメインは「無作為なデータの蓄積」が無償で公開されたことなのですよ。
私が研究していた範囲では、検索方法はSQLでLIKE検索程度で十分でした。
(拾いたいデータが拾えない方が問題なので)
Web上の言語のみ、しかも企業が他の目的でインデキシングしてしまったデータでは
ごく一部の何かWebに関する研究を除いては殆ど使えないと思います。
このデータに対する検索エンジンがあったら確かに便利だと思いますけど。
つまり (スコア:0)