コーパスって (#1164847) | 1,000万語分の日本語書き言葉均衡コーパス公開

「1,000万語分の日本語書き言葉均衡コーパス公開」記事へのコメント

記事ページを表示すべてのコメント取得

検索39コメント Log In/Create an Account

コーパスって (スコア:0)

by Anonymous Coward on 2007年05月29日 20時40分 (#1164847)

なんだよ？
検索しても出てこないぞ
- 英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)
  
  by Gomachan (17696) on 2007年05月29日 21時05分 (#1164857) 日記
  
  『当を』と入力してみた．『得る』が検索されることを期待した．
  「・・・弁当を・・」という文章が主にヒットしました．
  『的を』と入力してみた．『射る』が検索されることを期待した．
  　「・・・目的を・・」という文章が主にヒットしました．
  『どんだけ』と入力してみた．（いえ，ちょっと昨今の使い方についていけなかったので．）
  ３件の結果がでましたが，役に立ちませんでした．
  
  検索のシステムにも改良の余地はあるでしょうが，現時点ではgoogleで使い方を調べたい語句をクォーテーションで囲んで検索した方がよっぽど有用です．
  
  シェア
  
  親コメント
  - Re:英語のコーパスはあると便利ですが‥‥ (スコア:3, おもしろおかしい)
    
    by Anonymous Coward on 2007年05月29日 22時23分 (#1164898)
    
    『あたかも』と入力してみた．
    「・・・冷蔵庫に牛乳が・・」という文章が主にヒットしました．
    『どんより』と入力してみた．
    「・・・そばがすきだ・・」という文章が主にヒットしました．
    『うってかわって』と入力してみた．
    「・・・彼は麻薬を・・」という文章が主にヒットしました．
    
    シェア
    
    親コメント
  - Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 参考になる)
    
    by Anonymous Coward on 2007年05月29日 22時08分 (#1164888)
    
    ちゃんと注意書き読もうよ。
    正式版は態素解析・構文解析されるはずだから、使えるようになるでしょう。
    
    本サイトでは全文検索をおこなっていますので、指定された文字列を含むすべてのテキストが検索されます。例えば検索文字列に「リズム」を指定すると、「リズム」だけでなく、「アルゴリズム」や「フォルマリズム」などが検索され、「国語」を検索すると「母国語」「外国語」なども検索されます（本コーパスの正式公開版では、単語を単位とした検索ができるようになります）。
    
    シェア
    
    親コメント
    - 読んでませんでした．．．（ので，読んでみました） (スコア:1)
      
      by Gomachan (17696) on 2007年05月30日 0時36分 (#1164965) 日記
      
      ご指摘ありがとうございました．よく分かりました．
      データのもととなる文章も今後追加されていくそうなので，正式版をみてみろということですね．
      でも，完成は2011年．
      ・オンライン公開１（無償）
      　　簡単な語の検索のみ，出力件数に制約（500件まで）
      ・オンライン公開２（有償：年間3000円程度）
      　　高度な検索インターフェイスを提供，全出力をダウンロード可．
      ・データ全体の公開（アカデミック利用20万円程度）
      　　利用契約を締結した後，DVD等で配布
      　　　　　　（説明資料より）
      というわけで，活用しようとすると有償なんですね．無償版でも十分使えるようにして欲しいですね．
      
      シェア
      
      親コメント
      - Re:読んでませんでした．．．（ので，読んでみました） (スコア:1)
        
        by Another_View (29838) on 2007年05月30日 19時42分 (#1165513) ホームページ日記
        
        なんか昔のBritish National Corpusみたいな利用体系ですな。最終目標１億語ってのも同レベル。
        今やBNCはXMLデータベースになっていて、クライアントソフトで検索できるわけですが。
        
        # 1000万語なんてのはコーパスとしては赤ちゃんみたいなもんです
        
        シェア
        
        親コメント
  - Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)
    
    by alchematon (34178) on 2007年05月30日 4時17分 (#1165000)
    
    コーパスは基本的に計算機が学習に使うものなので、人間が直接役立てれなくても問題ないのではないかと。
    
    というかこういう単純なやり方で上手くいかないのが日本語を計算機で扱う上で問題となっていて、
    何をするにもまず日本語は単語に分割する必要があります。
    単語に分割する為にはまずどんな単語があるかを調べる必要があるのですが、
    そこで今回のようなシステムが役に立ちます。
    例えば「猫」で検索すると前後の文字がかなりバラバラになっているから「猫」で単語になりそうだとか、
    逆に「索」で検索すると前の文字は殆ど「検」になってるから「索」は単語じゃ無さそうだけど
    「検索」という単語がありそうだとかがわかります。
    
    こんな感じの学習は前もって（100％正しいかどうか定かでない）単語に分割されてると難しいので、
    とりあえず文字単位での全文検索で公開ってのは普通だと思いますよ。
    
    シェア
    
    親コメント
  - Re:英語のコーパスはあると便利ですが‥‥ (スコア:1, 参考になる)
    
    by Anonymous Coward on 2007年05月30日 2時29分 (#1164991)
    
    10年ほど前に学部レベルですが研究していた者です。
    おそらく勘違い…というと言いすぎですが、なんというか感覚のずれがあります。
    今回のメインは「無作為なデータの蓄積」が無償で公開されたことなのですよ。
    私が研究していた範囲では、検索方法はSQLでLIKE検索程度で十分でした。
    （拾いたいデータが拾えない方が問題なので）
    Web上の言語のみ、しかも企業が他の目的でインデキシングしてしまったデータでは
    ごく一部の何かWebに関する研究を除いては殆ど使えないと思います。
    このデータに対する検索エンジンがあったら確かに便利だと思いますけど。
    
    シェア
    
    親コメント
  - つまり (スコア:0)
    
    by Anonymous Coward
    
    つボイノリオ氏が主なターゲットなのですね
- Re:コーパスって (スコア:1)
  
  by kamaboko-Z (33628) on 2007年05月29日 20時44分 (#1164848)
  
  俺もわからない。
  何するもの？
  
  口語の使い方文例スタックってこと？
  
  「キモい」とか「欧米かヨ」みたいな言葉がどう使われているのか
  を調べるターゲットって事なのかなぁ？
  
  シェア
  
  親コメント
  - Re:コーパスって (スコア:5, 参考になる)
    
    by icecream (33977) on 2007年05月29日 23時00分 (#1164914) ホームページ
    
    自分は門外漢ですのでもっと詳しい方の説明の方がいいと思いますが、ちょっと書いてみます。
    これから形態素解析やら日本語入力の辞書とかが出来たりします。あとは人口無能とか。
    
    大量の文章から前後の単語(あるいは品詞)の接続の頻度を抽出して辞書を作ります。
    それらを新しい文章適用するわけです。
    
    日本語入力で「かのかわ」は「彼の川」が正解ですが賢い辞書が無いと、香の川、蚊の川、彼の皮(!)、とかになります。
    また、検索エンジンでメイドと入れてもホームメイドやマーメイドがかからないものそのお陰です。
    特定の単語が現れる文章に非常に高い確率で表れる単語を集めれば文章同士の類似性が解りますね。
    ほぼ無限の言語資源と演算能力があればチューリングテストで解らないヤツが出来るのではないかと夢想。
    
    これらの事をするためには特定分野に偏らない大量の良質な文章が必要だったりします。
    そいうものは元来新聞ぐらいしかなく、利用は高価だったようです。
    また、ライセンス的にクリーンでないとせっかく作っても再配布に制限がついたりするんですよね。
    ですから、このコーパスを直接使わなくても将来必ずどこかでその恩恵を受けると思います。
    個人的には税金を投入するのはとても良いことだと思います。
    
    この辺はインターネットの発展と共に超絶重要な分野になったと思いますが、微妙にマイナーですよね・・・
    
    #以前IPADICのライセンス調べててICOTまで突き当たったとき、色々考えさせられました。
    
    シェア
    
    親コメント
  - Re:コーパスって (スコア:3, 参考になる)
    
    by m2 (22615) on 2007年05月29日 23時56分 (#1164947)
    
    コーパス言語学 [wikipedia.org]という
    アメリカで独自の発達をみせた言語学の一分野があって
    
    統計的手続きによって、語の結合に何らかの法則性が発見・検証できないか
    マイニングするためのデータ群
    それがコーパスですね
    演繹的というよりは帰納的で、
    モンテカルロ法っぽいともいえるでしょうか？
    
    ヨーロッパ言語学の繊細さからすれば、物量に頼った
    およそエレガントでない作戦ですが、
    円周率の求め方の歴史 [wikipedia.org]などとも同様に
    単純な作業はコンピュータとの相性も良いので、
    この研究成果は、毎日使ってる日本語入力FEPにも
    すぐさま反映されうる、ナイスなインパクトをもった一大事件だと思います
    
    //庭には二羽鶏が居る
    
    シェア
    
    親コメント
    - Re:コーパスって (スコア:2, 興味深い)
      
      by keita (844) on 2007年05月30日 8時29分 (#1165016) 日記
      
      ヨーロッパ言語学の繊細さからすれば、物量に頼った
      およそエレガントでない作戦ですが、
      
      今ではむしろヨーロッパの方がコーパス言語学が盛んだと聞きました。
      記憶があいまいなので調べてみましたが以下が参考になるかと思います。
      
      言語理論と言語資料　—コーパスとコーパス以外のデータ [tohoku.ac.jp]
      
      日本では計量国語学会がありますし、
      英語やその他外国語研究の方々がコーパスを使っている場合もあります。
      ただし言語学としての日本語研究ではなお少数であり、あくまで補助的に利用している感じがします。
      今迄日本語の大規模なコーパスは存在しなかった、もしくは気軽に入手できなかったので、
      なかなか本格的な研究がやりづらかったという事情はあるかと思います。
      そういう意味ではこのコーパス構築のニュースはとても意義深いものだと思います。
      
      今までは言語学者や国語学者が個々に自前簡易コーパスを構築していたわけです。
      だから計量的研究を始めるためにはその膨大な構築コストに直面して、
      やっぱ面倒だなぁ、それくらいなら内省だけでも十分じゃない？と思っちゃったり。
      最近は「日本語話し言葉コーパス」とか出来ましたが、今回は書き言葉なので期待はより大きいと思います。
      
      20万円くらいならお買い得な感じ？
      
      シェア
      
      親コメント
  - Re:コーパスって (スコア:2, 興味深い)
    
    by Rty (19020) on 2007年05月29日 23時55分 (#1164946)
    
    わたしは大学時代、コーパス（口語のやつ）の御世話になってました。比較言語学を専攻していて言語の使用頻度のようなものを調べていました。昔のことなので良く憶えてませんが、どのようなことをしていたかというと、日本語の「・・・ている」走っている、荷物が届いている、風邪をひいているetcなどは、同じ「・・ている」だけど、それらは事象の進行を表していたり、状態を表していたり、完了を表したりしています。これらを英語に訳した場合、日本語では進行形で表すものが英語では状態を表現する形で表すものがあったりして、言語間で微妙にずれている場合があります。そのずれが多いのか少ないのを口語コーパスで調べていました。そのずれを調べてどうすんだというと、ずれがあるものは言語としては比較的周辺的なもので、ずれがないものは言語としてはルーツ的な存在だって言いたかったんだと思います。思うに感覚に近いのか、意識に近いのかということなのでしょう。うろ覚えなので専門の方、よろぴく
    
    シェア
    
    親コメント
  - Re:コーパスって (スコア:1, 参考になる)
    
    by Anonymous Coward on 2007年05月29日 23時01分 (#1164916)
    
    整理されて構造を持ったデータベースと違って，データをただただ集積したようなものと考えてください．
    例えば音声認識装置の性能（認識率）を評価したりするには，多くの発話を集めた音声コーパスが必要になるんです．
    （音声コーパスの場合は，集めた音声データにラベルをつける必要はありますが）
    
    シェア
    
    親コメント
- Re:コーパスって (スコア:1)
  
  by YOUsuke (6796) on 2007年05月29日 21時03分 (#1164854) ホームページ日記
  
  Googleで二番目に出てきたよ。
  http://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9 [wikipedia.org]
  
  --
  妖精哲学の三信
  「だらしねぇ」という戒めの心、「歪みねぇ」という賛美の心、「仕方ない」という許容の心
  
  シェア
  
  親コメント
- Re:コーパスって (スコア:1)
  
  by SteppingWind (2654) on 2007年05月29日 21時07分 (#1164859)
  
  "コーパス" と "言語" でぐぐったら山ほど出てきましたけど.
  
  一例 [wikipedia.org]
  
  シェア
  
  親コメント
  - Re:コーパスって (スコア:0)
    
    by Anonymous Coward
    
    親コメントの人はグーグル検索じゃなくてコーパス検索でコーパスという言葉を検索したのではないかと
    # 確かに出てこない。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

1,000万語分の日本語書き言葉均衡コーパス公開 More ログイン

「1,000万語分の日本語書き言葉均衡コーパス公開」記事へのコメント

コーパスって (スコア:0)

英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)

Re:英語のコーパスはあると便利ですが‥‥ (スコア:3, おもしろおかしい)

Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 参考になる)

読んでませんでした．．．（ので，読んでみました） (スコア:1)

Re:読んでませんでした．．．（ので，読んでみました） (スコア:1)

Re:英語のコーパスはあると便利ですが‥‥ (スコア:2, 興味深い)

Re:英語のコーパスはあると便利ですが‥‥ (スコア:1, 参考になる)

つまり (スコア:0)

Re:コーパスって (スコア:1)

Re:コーパスって (スコア:5, 参考になる)

Re:コーパスって (スコア:3, 参考になる)

Re:コーパスって (スコア:2, 興味深い)

Re:コーパスって (スコア:2, 興味深い)

Re:コーパスって (スコア:1, 参考になる)

Re:コーパスって (スコア:1)

Re:コーパスって (スコア:1)

Re:コーパスって (スコア:0)

スラド