パスワードを忘れた? アカウント作成
16703911 story
人工知能

AIの学習データが不足する「2026年問題」 54

ストーリー by nagazou
枯渇っていうのかな 部門より
ChatGPTなどに使われるAIの大規模言語モデル(LLM)の開発には多くの学習データが必要だ。この件に関しては2026年問題という問題があるそうで、Yahoo!ニュース個人の記事でまとめられている(Yahoo!ニュース個人Business Insider)。

現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。これにより、機械学習の進歩は減速する可能性もある。

これ以外にも学習データの収集に関しては、さまざまな問題が指摘されている。多くは著作権的なものだが、データ収集のためのボット操作によるツイッターのアクセス集中もこの問題を浮き彫りにしたと言われている。大規模言語モデルの開発におけるこうした従来の手法は限界に近づいており、AI研究者たちは、合成データや他の手法で解決策を模索しているという。

オープンAIや他のAI企業は、メディアとの契約を結び、高品質のデータを取得している。また、AIによって作成された合成データも利用が広がっているが、データ汚染やモデル崩壊といった懸念も指摘されている。実際、米スタンフォード大学の調査によると、ChatGPTの簡単な数学を解く精度やセンシティブな話題に対する判断力が劇的に低下する現象も起きているそうだ(GIGAZINE)。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 本を読めばよいのだ (スコア:4, すばらしい洞察)

    by simon (1336) on 2023年07月26日 18時36分 (#4501084)

    >現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。

    ChatGPTにページをめくるアームと文字認識用のカメラをつけた読書ロボを接続して世界中のあらゆる図書館の本を読み漁らせればよい

    あと美術館を巡って美術品を鑑賞(撮影)するロボと
    世界中の建築物を見物するロボも接続しよう

    #なんかそういうロボが羨ましく思えてきた

    • そのうち視界に入ったものに光弾撃ってデータ化して吸収するようになるんだな

      親コメント
    • by Anonymous Coward

      フランス書院やマドンナメイトの本とが
      ルビー文庫みたいなBLとかも学んだらAIどうなっちゃうかな
      ハヤカワSFとか読ませてAIテーマについて学んだAIとか

    • by Anonymous Coward

      googleが著作権無視でスキャンしたものを図書館みたいに公開するという話があったが、どうなったんだろう?

  • 不足するなら、コストをかけて信頼できるデータを作れば良い。
    比較的ましなデータが無料で転がってる今が異常なだけだ。

    むしろ、そうなってからがAI技術の本当の進歩がはじまるんじゃないかと思う。

    --
    しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
  • by Anonymous Coward on 2023年07月26日 19時23分 (#4501119)

    嘘を嘘と見抜けないと(AIを使うのは)難しい。
    それはAIの入力に対しても。
    AIが嘘を嘘と見抜けるようになった時が、シンギュラリティの入り口。
    そう思っている。

  • by Anonymous Coward on 2023年07月26日 17時27分 (#4501052)

    現存するすべてのデータを学習したAIモデルに、それ以上の学習は必要なのだろうか?

    • by Takahiro_Chou (21972) on 2023年07月26日 22時41分 (#4501249) 日記

      多分、喩えるなら、1980年代に物心付いてた爺婆が、まだ若かった頃、少年ジャンプの「北斗の拳」の「修羅の国」篇の最後の方で「ん?? どういう事」となった理屈の具体例を目にするのに近い事態が起きるんじゃないかと。

      「北斗宗家の拳は完成された拳法たった為に、実戦での戦闘力を失なっていった」

      親コメント
    • by Anonymous Coward

      あなたの本日の体温や心拍数もデータです

    • by Anonymous Coward

      AIの出力をどんどんネットにアップロードして自己学習させる必要がある
      スマートスピーカーで収集した言語データなども学習させればよい
      Youtubeも学習データの宝庫だ
      GmailのテキストなんかもGoogledが学習用データとして提供するべきだ
      #新聞記事を使った学習もお忘れなく

      • by Anonymous Coward

        テレビという無駄に情報を垂れ流しているものもあるね

  • by Anonymous Coward on 2023年07月26日 17時34分 (#4501055)

    人間の生産物から学習する限りそうなるだろうよ
    進歩を加速させるには、機械自らが学習データを生成する必要がある

    • by Anonymous Coward

      AI自家発電すると数世代で破綻するみたいなのを観たことがあるよ
      テロメアみたいなしくみがあるのかな?

      • by simon (1336) on 2023年07月26日 22時30分 (#4501244)

        https://www.itmedia.co.jp/news/articles/2307/26/news080.html [itmedia.co.jp]
        「画像生成AIに“AIが作った画像”を学習させ続けると? “品質や多様性が悪化” 「モデル自食症」に

        AIは人間の顔がどんなものかわかってないのでAIが生成した画像を参考にしているうちに顔に謎の縞模様をつけてしまう、というのなんかすごく怖くて面白い

        親コメント
        • Re: (スコア:0, 参考になる)

          by Anonymous Coward

          エフェクトの多重適用やフィードバックでループ(ハウリング)
          を作ると周期信号やらが出て来るのは定番ではある。

          これの場合は切り貼りの境界を挟んで似た構造があると切り貼り位置が安定しなくなったり
          それを含む外側の構造が破綻する奴が多重発生してこうなった感はあるけど。

          そもそもこういうノイズの自己増幅が仮にゼロだったとしても、
          切り貼りする元データが枯渇したらどうにもならんってのが
          このストーリーの趣旨なんで、これがなくても詰みではある。

        • by Anonymous Coward

          モデレーションがなければそうなるよね。
          AIの生成物にもそのまま見れるものとそうでないものがあるんだし、両者を何らかの手段でふるいにかけなきゃいけない。
          人間の作ったものを学習させるときだってタギングなんかはしてるんだし。

      • by Anonymous Coward

        それは現在のLLMが劣化した出力しかできないから。より優れた出力ができるなら囲碁AIみたいに自己対戦で進化できる。

        • by Anonymous Coward

          「勝利」という明確な目的がない場合、「より優れた出力」を判定する機能の実装が困難なのでは?

          • by nim (10479) on 2023年07月26日 20時51分 (#4501188)

            人間に立って特に明確な目的はないので、仕組み次第では成立するのでは?

            親コメント
            • by Anonymous Coward

              そのへんが強いAIを実現するキーにはなりそう。
              学習の仕組みが人間相当なら、発生学方面あたりの成果を貰って
              遺伝子等により誘導される脳の初期構造だけ与えて
              運用環境内に晒しておけばそれっぽく育ちそうではある。

              まぁ制御されない強いAIとか暴走が怖すぎるんです実現しないでほしいけど。

    • by Anonymous Coward

      街頭カメラとかから色々学べそうやな

  • by Anonymous Coward on 2023年07月26日 17時45分 (#4501059)

    たしかに実感としてはChatGPTは3.5から4になったときに
    「おい。気でもふれたか?」って思うことがあった。
    意味不明な言葉を突然しゃべりだして、「それってどういう意味?」って尋ねると
    自分でも何でそんなことを言ったの分からんと答える。なんか憑りつかれてるみたいで気味悪かった。

  • by Anonymous Coward on 2023年07月26日 17時53分 (#4501062)

    ChatGPTの2021年縛り最新モデルでは解除されたの? そうじゃなかったら全然関係ねえだろ。とくにセンシティブな話題は絶対に人為的な操作のせいだろ

  • by Anonymous Coward on 2023年07月26日 18時21分 (#4501076)

    言葉の意味を理解できる汎用AIが必要になるとは思うけど

    今の学習方法は端的に言えば単語の出現率を学んでるだけじゃないか?
    確かにチャット方式だと知能があるように思えるが、犬の話題を語っているときにAI側で犬について考えている訳では無いと思う

    • by Anonymous Coward

      AIの議論って、こういう毒にも薬にもならない一般論が沢山出てくるなって印象。

      • by Anonymous Coward

        実現可能性の低さから「毒にも薬にもならない」と言いたいのは分かりますが……

        特化型AIは山程あれど、実際シンギュラリティを起こすレベルに至るには汎用AI(要するにドラえもんの様な知能)が出来ないと厳しいんじゃないかね

      • by Anonymous Coward

        記号接地問題、ですね。シニフィアンとシニフィエの問題、と言ってもいいかもしれません。
        > 犬の話題を語っているときにAI側で犬について考えている訳では無い

        言語学、記号論、哲学といった分野になってくるので、技術寄りの人には退屈な論点かもしれませんが、
        ひと昔の前の言い方である「強いAI」を目指すなら、避けて通れない話題でもあります。

        # 広い意味での哲学とこれまた広い意味での情報技術にまたがった天才が出てくるまでは、シンギュラリティは遠いのではないかと夢想

    • by Anonymous Coward

      Transformerモデルは「出現率を学んでいる」というよりも、単語の意味することの「関係性を学んでいる」の方が表現として近そうです。なので、今のChatGPTには「知能がある」というよりも、知能があるように見せかけられるだけの「関係性を学んでいる」という方が表現として近いはずです。

      > 犬の話題を語っているときにAI側で犬について考えている訳では無いと思う
      その通りと思います。

      • by Anonymous Coward on 2023年07月26日 23時19分 (#4501261)

        「知能がある」というよりも、知能があるように見せかけられるだけの「関係性を学んでいる」

        見せかけられるというか、知能の一端なんじゃないでしょうか。全部ではないにせよ。大量の文章から、単語の共起にまつわる潜在的な関係性を抽出し、そこから逆にそれらしい文章を推論する能力。人間も深く考えずにしゃべるときは案外このくらいのモードで動いてるかもしれない。

        親コメント
        • by Anonymous Coward

          子供が文章らしい言葉を喋りだすころの感じかな

      • by Anonymous Coward

        犬の話題をしてるときは犬関連の情報が出やすくなってるわけで、
        それが犬について考えているわけではないと断言できるかどうかは議論があるんじゃないの

    • by Anonymous Coward
      犬の話題を語っている人間って本当に犬について何か考えているの?
      って話や
      犬に関連する様々なデータを引っ張り出して、それを組み合わせて文を作っている
      というならそれはまさにAIがやってることだし
      犬のクオリアが発生してるんだよ
      とのたまうなら、まずそれをここにお出ししてくれませんか
      ということ。
  • by Anonymous Coward on 2023年07月26日 19時34分 (#4501129)

    素人考えだけど、そこらにごろごろしてる低品質なデータを使えるようにする(In the wild)とか、出力を人力で順位付けさせて強化学習する(Human in the loop)とか、手はいろいろ出てくると思う。まあ、そういう手を考えにゃだめよ、という警鐘ととらえることはできるかもだけど。

    • by Anonymous Coward

      AIの生成した低品質なデータを自己消費した結果どんどん馬鹿になっているというデータがあったような

      そして既にAI生成データが氾濫しすぎていて見分けるのも難しいとか

      • by Anonymous Coward

        人間の集合知と一緒か

  • by Anonymous Coward on 2023年07月26日 19時52分 (#4501144)

    2026年まで待てばいいってこと?

    • by Anonymous Coward

      録画していたペンディングトレイン見終わったところ。
      2026年12月9日に全てが終わるってことなんだな :-P

  • by Anonymous Coward on 2023年07月26日 20時14分 (#4501162)

    カメラとマイクを付けた車を街に走らせてデータ収集すればいいのでは?

    • by Anonymous Coward

      そうするとAIが謎の陰謀論にハマってしまうのでは・・・

    • by Anonymous Coward

      カメラとマイクを付けた車を街に走らせてデータ収集すればいいのでは?

      そしてストリートビューにきさらぎ駅が、、、

  • by Anonymous Coward on 2023年07月27日 0時23分 (#4501281)

    現存する書物やデータでなんとかかんとかやりくりしているというのに、贅沢物が……

  • by Anonymous Coward on 2023年07月27日 8時09分 (#4501350)

    2023年以降に作られたデータは生成AIによるもの(フェイク含む)の汚染を疑わないといけないだろうな
    arXivみたいな論文サイトにも嘘論文があふれ、それを学習データに使ったAIがさらに嘘をまきちらす地獄
    ファクトチェックというものが崩壊すると民主主義が終わるとも言われているが・・・

    • by Anonymous Coward

      みんなが望んだシンギュラリティ後の世界

  • by Anonymous Coward on 2023年07月27日 9時03分 (#4501379)

    AIが出力した文章をAIに食わすとヘンになる、というお話もあるのね。

    Aiが出力した文章を大量に読んで育った人間が増えて
    そんな人間が書いた文章をAIが食って学習して
    そんなAIが出力した文章で、また人間は育っていって

    を繰り返したらどうなるのっと。
    21世紀前半に生きてる人間にとっては「何だこの文章」となるものでも
    未来の人間は「まあこんなもんでしょ」となったりして。

typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...