パスワードを忘れた? アカウント作成
15535 story

1,000万語分の日本語書き言葉均衡コーパス公開 39

ストーリー by yoosee
なにに使うと楽しいですかね 部門より

ultrageek 曰く、

INTERNET Watchの記事によれば、 国立国語研究所が、「現代日本語書き言葉均衡コーパス」のデータの一部にあたる 約1,000万語分を試験公開したそうだ。 公開されたデータは、政府刊行白書とYahoo!知恵袋の2種類を元にしたもの。2011年の完成時には1億語を越えるデータを目標としている。
検索デモをツンツンとやってみたが、 書き言葉がズラズラでてきて面白いのだが、何か利用法はあるだろうか。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2007年05月29日 20時32分 (#1164842)
    >ultrageek 曰く
    >検索デモをツンツンとやってみたが

    ultrageek:か、かんちがいしないでよね、別に国語研究なんかに興味ないんだからね!

    システム:ツンデレキターッ

    ultrageek:ちょ…ちょっと!な、なに嬉しそうな顔してるのよ!

    と、まあこんな風にツンツンとやったわけですね。
    ultrageek さんって、相当病んでますよね。

    #どうみても病人は自分です、本当にありがとうございました
  • by takegata (26121) on 2007年05月29日 22時01分 (#1164883)
    NLPをやってると、実験用のデータにコーパスが必要になるんですよ。
    Googleだと実験のたびに結果が変わってしまうので比較ができないのです。
  • by kuy (23721) on 2007年05月29日 22時19分 (#1164891) ホームページ
    で検索すると面白い。
    こういう間違った使い方が広まりつつあるような言葉を検索してみるとか。

    #あ、リアルタイムに現在を反映している訳じゃないからダメかw
    • by ken2 (27347) on 2007年05月29日 22時43分 (#1164905)
      お役所言葉(整備文 [wikipedia.org])っていうのも面白いですよ。
      親コメント
    • 下ネタ (スコア:1, おもしろおかしい)

      by Anonymous Coward on 2007年05月29日 22時55分 (#1164913)
      下ネタで検索したら、もっとすごい下ネタが前後に出てきて萎縮してしまいました。さすがYahoo!知恵袋。
      親コメント
    • by barrel (25979) on 2007年05月30日 22時30分 (#1165585)
      すべからく:1件、しかも誤用っぽい
      シュミレーション:43件
      内臓:かなり内蔵の誤変換が多い
      確立:意外と確率の誤変換は少ないがいくつかあり

      こういった毒入りの部分はちまちまと手で除くのかなぁ
      親コメント
      • by Gomachan (17696) on 2007年05月31日 21時26分 (#1166144) 日記
        「すべからく」を間違って使っておられる方が少なくありませんよね.
        私の好きな某作家(林○さん.この方は国語の専門家だけれど...)や某映画監督など,
        少し調べてみると,コーパスでは文法的な間違いは取り除いて良いらしいと理解したのですが,それを除く作業はすごく大変な労力が必要になりそうですね.
        親コメント
    • by Anonymous Coward
      「全然~(肯定文)」がだめだって言う人は「全く~(肯定文)」もだめだって言ってください。 #全くそのとおりだ!
    • by Anonymous Coward
      > 間違った使い方が広まりつつある

      「全然~肯定文」というのは、日本語として全然大丈夫です。
      明治以前から使われている用法で、夏目漱石の本などにも全然普通に出てきます。
      • by Anonymous Coward
        普通に使われていたのなら、例を示して頂けないでしょうか。

        この手の表現の例としては辞書等にも『ぼっちゃん』の台詞が
        使われていたりしますが、例としては著しく不適切です。
        台詞というものは漱石自身の言葉ではなく、『ぼっちゃん』なら
        こう言うだろうと考えた言い回しですから。

        # 漱石が書いた方言を根拠に"正しい"方言を論ずる人はいない。

        # 辞書編纂時に調査したものの、例としては相応しくないものしか
        # 見付けられなかった。つまり、そういう使い方はされていなかった。
        # と言うのが真相ではないかと妄想中。
        • by k12u (31968) on 2007年06月02日 12時42分 (#1166829)
          少なくとも「用例がある」という点で一致はしているようですが
          ふさわしい日本語とそうでない日本語はどうやって見分けるのでしょうか?
          親コメント
  • by Anonymous Coward on 2007年05月29日 20時38分 (#1164845)
    >何か利用法はあるだろうか。

    計画概要のところに書いてあるようなことでは?
  • by Anonymous Coward on 2007年05月29日 20時40分 (#1164847)
    なんだよ?
    検索しても出てこないぞ
    • 『当を』と入力してみた.『得る』が検索されることを期待した.
      「・・・弁当を・・」という文章が主にヒットしました.
      『的を』と入力してみた.『射る』が検索されることを期待した.
       「・・・目的を・・」という文章が主にヒットしました.
      『どんだけ』と入力してみた.(いえ,ちょっと昨今の使い方についていけなかったので.)
      3件の結果がでましたが,役に立ちませんでした.

      検索のシステムにも改良の余地はあるでしょうが,現時点ではgoogleで使い方を調べたい語句をクォーテーションで囲んで検索した方がよっぽど有用です.
      親コメント
      • by Anonymous Coward on 2007年05月29日 22時23分 (#1164898)
        『あたかも』と入力してみた.
        「・・・冷蔵庫に牛乳が・・」という文章が主にヒットしました.
        『どんより』と入力してみた.
        「・・・そばがすきだ・・」という文章が主にヒットしました.
        『うってかわって』と入力してみた.
        「・・・彼は麻薬を・・」という文章が主にヒットしました.
        親コメント
      • by Anonymous Coward on 2007年05月29日 22時08分 (#1164888)

        ちゃんと注意書き読もうよ。
        正式版は態素解析・構文解析されるはずだから、使えるようになるでしょう。

        本サイトでは全文検索をおこなっていますので、指定された文字列 を含むすべてのテキストが検索されます。例えば検索文字列に「リ ズム」を指定すると、「リズム」だけでなく、「アルゴリズム」や 「フォルマリズム」などが検索され、「国語」を検索すると「母国 語」「外国語」なども検索されます(本コーパスの正式公開版では、 単語を単位とした検索ができるようになります)。
        親コメント
        • ご指摘ありがとうございました.よく分かりました.
          データのもととなる文章も今後追加されていくそうなので,正式版をみてみろということですね.
          でも,完成は2011年.
          ・オンライン公開1(無償)
            簡単な語の検索のみ,出力件数に制約(500件まで)
          ・オンライン公開2(有償:年間3000円程度)
            高度な検索インターフェイスを提供,全出力をダウンロード可.
          ・データ全体の公開(アカデミック利用20万円程度)
            利用契約を締結した後,DVD等で配布
                (説明資料より)
          というわけで,活用しようとすると有償なんですね.無償版でも十分使えるようにして欲しいですね.
          親コメント
      • コーパスは基本的に計算機が学習に使うものなので、人間が直接役立てれなくても問題ないのではないかと。

        というかこういう単純なやり方で上手くいかないのが日本語を計算機で扱う上で問題となっていて、
        何をするにもまず日本語は単語に分割する必要があります。
        単語に分割する為にはまずどんな単語があるかを調べる必要があるのですが、
        そこで今回のようなシステムが役に立ちます。
        例えば「猫」で検索すると前後の文字がかなりバラバラになっているから「猫」で単語になりそうだとか、
        逆に「索」で検索すると前の文字は殆ど「検」になってるから「索」は単語じゃ無さそうだけど
        「検索」という単語がありそうだとかがわかります。

        こんな感じの学習は前もって(100%正しいかどうか定かでない)単語に分割されてると難しいので、
        とりあえず文字単位での全文検索で公開ってのは普通だと思いますよ。
        親コメント
      • by Anonymous Coward on 2007年05月30日 2時29分 (#1164991)
        10年ほど前に学部レベルですが研究していた者です。
        おそらく勘違い…というと言いすぎですが、なんというか感覚のずれがあります。
        今回のメインは「無作為なデータの蓄積」が無償で公開されたことなのですよ。
        私が研究していた範囲では、検索方法はSQLでLIKE検索程度で十分でした。
        (拾いたいデータが拾えない方が問題なので)
        Web上の言語のみ、しかも企業が他の目的でインデキシングしてしまったデータでは
        ごく一部の何かWebに関する研究を除いては殆ど使えないと思います。
        このデータに対する検索エンジンがあったら確かに便利だと思いますけど。
        親コメント
      • by Anonymous Coward
        つボイノリオ氏が主なターゲットなのですね
    • by kamaboko-Z (33628) on 2007年05月29日 20時44分 (#1164848)
      俺もわからない。
      何するもの?

      口語の使い方文例スタックってこと?

      「キモい」とか「欧米かヨ」みたいな言葉がどう使われているのか
      を調べるターゲットって事なのかなぁ?
      親コメント
      • Re:コーパスって (スコア:5, 参考になる)

        by icecream (33977) on 2007年05月29日 23時00分 (#1164914) ホームページ
        自分は門外漢ですのでもっと詳しい方の説明の方がいいと思いますが、ちょっと書いてみます。
        これから形態素解析やら日本語入力の辞書とかが出来たりします。あとは人口無能とか。

        大量の文章から前後の単語(あるいは品詞)の接続の頻度を抽出して辞書を作ります。
        それらを新しい文章適用するわけです。

        日本語入力で「かのかわ」は「彼の川」が正解ですが賢い辞書が無いと、香の川、蚊の川、彼の皮(!)、とかになります。
        また、検索エンジンでメイドと入れてもホームメイドやマーメイドがかからないものそのお陰です。
        特定の単語が現れる文章に非常に高い確率で表れる単語を集めれば文章同士の類似性が解りますね。
        ほぼ無限の言語資源と演算能力があればチューリングテストで解らないヤツが出来るのではないかと夢想。

        これらの事をするためには特定分野に偏らない大量の良質な文章が必要だったりします。
        そいうものは元来新聞ぐらいしかなく、利用は高価だったようです。
        また、ライセンス的にクリーンでないとせっかく作っても再配布に制限がついたりするんですよね。
        ですから、このコーパスを直接使わなくても将来必ずどこかでその恩恵を受けると思います。
        個人的には税金を投入するのはとても良いことだと思います。

        この辺はインターネットの発展と共に超絶重要な分野になったと思いますが、微妙にマイナーですよね・・・

        #以前IPADICのライセンス調べててICOTまで突き当たったとき、色々考えさせられました。
        親コメント
      • Re:コーパスって (スコア:3, 参考になる)

        by m2 (22615) on 2007年05月29日 23時56分 (#1164947)
        コーパス言語学 [wikipedia.org]という
        アメリカで独自の発達をみせた言語学の一分野があって

        統計的手続きによって、語の結合に何らかの法則性が発見・検証できないか
        マイニングするためのデータ群

        それがコーパスですね
        演繹的というよりは帰納的で、
        モンテカルロ法っぽいともいえるでしょうか?

        ヨーロッパ言語学の繊細さからすれば、物量に頼った
        およそエレガントでない作戦ですが、
        円周率の求め方の歴史 [wikipedia.org]などとも同様に
        単純な作業はコンピュータとの相性も良いので、
        この研究成果は、毎日使ってる日本語入力FEPにも
        すぐさま反映されうる、ナイスなインパクトをもった一大事件だと思います

        //庭には二羽鶏が居る
        親コメント
        • by keita (844) on 2007年05月30日 8時29分 (#1165016) 日記
          ヨーロッパ言語学の繊細さからすれば、物量に頼った
          およそエレガントでない作戦ですが、


          今ではむしろヨーロッパの方がコーパス言語学が盛んだと聞きました。
          記憶があいまいなので調べてみましたが以下が参考になるかと思います。

          言語理論と言語資料 —コーパスとコーパス以外のデータ [tohoku.ac.jp]

          日本では計量国語学会がありますし、
          英語やその他外国語研究の方々がコーパスを使っている場合もあります。
          ただし言語学としての日本語研究ではなお少数であり、あくまで補助的に利用している感じがします。
          今迄日本語の大規模なコーパスは存在しなかった、もしくは気軽に入手できなかったので、
          なかなか本格的な研究がやりづらかったという事情はあるかと思います。
          そういう意味ではこのコーパス構築のニュースはとても意義深いものだと思います。

          今までは言語学者や国語学者が個々に自前簡易コーパスを構築していたわけです。
          だから計量的研究を始めるためにはその膨大な構築コストに直面して、
          やっぱ面倒だなぁ、それくらいなら内省だけでも十分じゃない? と思っちゃったり。
          最近は「日本語話し言葉コーパス」とか出来ましたが、今回は書き言葉なので期待はより大きいと思います。

          20万円くらいならお買い得な感じ?
          親コメント
      • by Rty (19020) on 2007年05月29日 23時55分 (#1164946)
        わたしは大学時代、コーパス(口語のやつ)の御世話になってました。 比較言語学を専攻していて言語の使用頻度のようなものを調べていました。 昔のことなので良く憶えてませんが、どのようなことをしていたかというと、 日本語の「・・・ている」走っている、荷物が届いている、風邪をひいているetcなどは、同じ「・・ている」だけど、それらは事象の進行を表していたり、状態を表していたり、完了を表したりしています。これらを英語に訳した場合、日本語では進行形で表すものが英語では状態を表現する形で表すものがあったりして、言語間で微妙にずれている場合があります。そのずれが多いのか少ないのを口語コーパスで調べていました。そのずれを調べてどうすんだというと、ずれがあるものは言語としては比較的周辺的なもので、ずれがないものは言語としてはルーツ的な存在だって言いたかったんだと思います。思うに感覚に近いのか、意識に近いのかということなのでしょう。 うろ覚えなので専門の方、よろぴく
        親コメント
      • Re:コーパスって (スコア:1, 参考になる)

        by Anonymous Coward on 2007年05月29日 23時01分 (#1164916)
        整理されて構造を持ったデータベースと違って,データをただただ集積したようなものと考えてください.
        例えば音声認識装置の性能(認識率)を評価したりするには,多くの発話を集めた音声コーパスが必要になるんです.
        (音声コーパスの場合は,集めた音声データにラベルをつける必要はありますが)
        親コメント
    • Googleで二番目に出てきたよ。
      http://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9 [wikipedia.org]
      --
      妖精哲学の三信
      「だらしねぇ」という戒めの心、「歪みねぇ」という賛美の心、「仕方ない」という許容の心
      親コメント
    • by SteppingWind (2654) on 2007年05月29日 21時07分 (#1164859)

      "コーパス" と "言語" でぐぐったら山ほど出てきましたけど.

      一例 [wikipedia.org]

      親コメント
      • by Anonymous Coward
        親コメントの人はグーグル検索じゃなくてコーパス検索でコーパスという言葉を検索したのではないかと
        # 確かに出てこない。
  • by Anonymous Coward on 2007年05月29日 21時41分 (#1164874)
    Google、大規模日本語データの公開を検討 [srad.jp]

    こちらの続報はまだ?
  • by Anonymous Coward on 2007年05月29日 21時56分 (#1164879)
    Yahoo!知恵袋に書くと、その文章が日本語の標準になるということ? これからは、尼崎弁でYahoo!知恵袋にめがっさ書くにょろ。
  • by Anonymous Coward on 2007年05月29日 23時01分 (#1164917)
    最近政府も日本のサブカルチャーとして広めようとしている「アニメ」について検索してみたところ、興味深い記事を発見しました。
    厚生白書 [mhlw.go.jp]
    デジタルコンテンツと競争政策に関する研究会の開催について [jftc.go.jp]
    っと、検索結果をコピペしてGoogleで検索すると、お国がどんな考えをしているかわかるツールとして使えますね。

    # つまらないコメントなのでAC。
  • by Anonymous Coward on 2007年05月30日 21時08分 (#1165552)
    これと英語のコーパスをうまく使えば、翻訳ソフトを一段レベルアップ できるような気がするんですが、どうなんでしょう。 教えて、えろい人。
typodupeerror

ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家

読み込み中...