AIの学習データが不足する「2026年問題」

AIの学習データが不足する「2026年問題」 54

ストーリー by nagazou 2023年07月26日 17時05分
枯渇っていうのかな部門より

ChatGPTなどに使われるAIの大規模言語モデル（LLM）の開発には多くの学習データが必要だ。この件に関しては2026年問題という問題があるそうで、Yahoo!ニュース個人の記事でまとめられている（Yahoo!ニュース個人、Business Insider）。

現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。これにより、機械学習の進歩は減速する可能性もある。

これ以外にも学習データの収集に関しては、さまざまな問題が指摘されている。多くは著作権的なものだが、データ収集のためのボット操作によるツイッターのアクセス集中もこの問題を浮き彫りにしたと言われている。大規模言語モデルの開発におけるこうした従来の手法は限界に近づいており、AI研究者たちは、合成データや他の手法で解決策を模索しているという。

オープンAIや他のAI企業は、メディアとの契約を結び、高品質のデータを取得している。また、AIによって作成された合成データも利用が広がっているが、データ汚染やモデル崩壊といった懸念も指摘されている。実際、米スタンフォード大学の調査によると、ChatGPTの簡単な数学を解く精度やセンシティブな話題に対する判断力が劇的に低下する現象も起きているそうだ（GIGAZINE）。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索54コメント Log In/Create an Account

本を読めばよいのだ (スコア:4, すばらしい洞察)

by simon (1336) on 2023年07月26日 18時36分 (#4501084)

＞現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。
ChatGPTにページをめくるアームと文字認識用のカメラをつけた読書ロボを接続して世界中のあらゆる図書館の本を読み漁らせればよい
あと美術館を巡って美術品を鑑賞（撮影）するロボと
世界中の建築物を見物するロボも接続しよう
#なんかそういうロボが羨ましく思えてきた
- Re:本を読めばよいのだ (スコア:1)
  
  by yasuchiyo (11756) on 2023年07月27日 8時33分 (#4501367) 日記
  
  そのうち視界に入ったものに光弾撃ってデータ化して吸収するようになるんだな
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  フランス書院やマドンナメイトの本とが
  ルビー文庫みたいなBLとかも学んだらAIどうなっちゃうかな
  ハヤカワSFとか読ませてAIテーマについて学んだAIとか
  - Re:本を読めばよいのだ (スコア:1)
    
    by No.5 (48684) on 2023年07月27日 11時04分 (#4501422)
    
    星新一氏のショートショートに、神についての情報を片端から学習させたコンピュータが極まって神になった話があったのを思い出しました。
    タイトルもそのまま「神」だったかと。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  googleが著作権無視でスキャンしたものを図書館みたいに公開するという話があったが、どうなったんだろう？
需要と供給のバランス (スコア:2)

by akiraani (24305) on 2023年07月27日 8時38分 (#4501368) 日記

不足するなら、コストをかけて信頼できるデータを作れば良い。
比較的ましなデータが無料で転がってる今が異常なだけだ。
むしろ、そうなってからがAI技術の本当の進歩がはじまるんじゃないかと思う。

--
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
真贋、裏取り、公序良俗の判定まで (スコア:1)

by Anonymous Coward on 2023年07月26日 19時23分 (#4501119)

嘘を嘘と見抜けないと(AIを使うのは)難しい。
それはAIの入力に対しても。
AIが嘘を嘘と見抜けるようになった時が、シンギュラリティの入り口。
そう思っている。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  はい、うそーん
果たして (スコア:0)

by Anonymous Coward on 2023年07月26日 17時27分 (#4501052)

現存するすべてのデータを学習したAIモデルに、それ以上の学習は必要なのだろうか？
- Re:果たして (スコア:2)
  
  by Takahiro_Chou (21972) on 2023年07月26日 22時41分 (#4501249) 日記
  
  多分、喩えるなら、1980年代に物心付いてた爺婆が、まだ若かった頃、少年ジャンプの「北斗の拳」の「修羅の国」篇の最後の方で「ん?? どういう事」となった理屈の具体例を目にするのに近い事態が起きるんじゃないかと。
  「北斗宗家の拳は完成された拳法たった為に、実戦での戦闘力を失なっていった」
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  あなたの本日の体温や心拍数もデータです
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AIの出力をどんどんネットにアップロードして自己学習させる必要がある
  スマートスピーカーで収集した言語データなども学習させればよい
  Youtubeも学習データの宝庫だ
  GmailのテキストなんかもGoogledが学習用データとして提供するべきだ
  ＃新聞記事を使った学習もお忘れなく
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    テレビという無駄に情報を垂れ流しているものもあるね
そりゃあ (スコア:0)

by Anonymous Coward on 2023年07月26日 17時34分 (#4501055)

人間の生産物から学習する限りそうなるだろうよ
進歩を加速させるには、機械自らが学習データを生成する必要がある
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AI自家発電すると数世代で破綻するみたいなのを観たことがあるよ
  テロメアみたいなしくみがあるのかな？
  - モデル自食症 (スコア:3)
    
    by simon (1336) on 2023年07月26日 22時30分 (#4501244)
    
    https://www.itmedia.co.jp/news/articles/2307/26/news080.html [itmedia.co.jp]
    「画像生成AIに“AIが作った画像”を学習させ続けると？　“品質や多様性が悪化”　「モデル自食症」に
    AIは人間の顔がどんなものかわかってないのでAIが生成した画像を参考にしているうちに顔に謎の縞模様をつけてしまう、というのなんかすごく怖くて面白い
    
    シェア
    
    親コメント
    - Re: (スコア:0, 参考になる)
      
      by Anonymous Coward
      
      エフェクトの多重適用やフィードバックでループ(ハウリング)
      を作ると周期信号やらが出て来るのは定番ではある。
      これの場合は切り貼りの境界を挟んで似た構造があると切り貼り位置が安定しなくなったり
      それを含む外側の構造が破綻する奴が多重発生してこうなった感はあるけど。
      そもそもこういうノイズの自己増幅が仮にゼロだったとしても、
      切り貼りする元データが枯渇したらどうにもならんってのが
      このストーリーの趣旨なんで、これがなくても詰みではある。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      モデレーションがなければそうなるよね。
      AIの生成物にもそのまま見れるものとそうでないものがあるんだし、両者を何らかの手段でふるいにかけなきゃいけない。
      人間の作ったものを学習させるときだってタギングなんかはしてるんだし。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    それは現在のLLMが劣化した出力しかできないから。より優れた出力ができるなら囲碁AIみたいに自己対戦で進化できる。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      「勝利」という明確な目的がない場合、「より優れた出力」を判定する機能の実装が困難なのでは？
      - Re:そりゃあ (スコア:1)
        
        by nim (10479) on 2023年07月26日 20時51分 (#4501188)
        
        人間に立って特に明確な目的はないので、仕組み次第では成立するのでは？
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        そのへんが強いAIを実現するキーにはなりそう。
        学習の仕組みが人間相当なら、発生学方面あたりの成果を貰って
        遺伝子等により誘導される脳の初期構造だけ与えて
        運用環境内に晒しておけばそれっぽく育ちそうではある。
        まぁ制御されない強いAIとか暴走が怖すぎるんです実現しないでほしいけど。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  街頭カメラとかから色々学べそうやな
誰か変なもの食わしてる？ (スコア:0)

by Anonymous Coward on 2023年07月26日 17時45分 (#4501059)

たしかに実感としてはChatGPTは3.5から4になったときに
「おい。気でもふれたか？」って思うことがあった。
意味不明な言葉を突然しゃべりだして、「それってどういう意味？」って尋ねると
自分でも何でそんなことを言ったの分からんと答える。なんか憑りつかれてるみたいで気味悪かった。
- Re:誰か変なもの食わしてる？ (スコア:2, 参考になる)
  
  by Anonymous Coward on 2023年07月26日 22時30分 (#4501245)
  
  DataAugmentationは学習に有効でもやりすぎるとよくない、というのは有名な話かと。
  それが生成AIの出現で目立つようになったという気がします。
  画像においては、
  https://www.itmedia.co.jp/news/articles/2307/26/news080.html [itmedia.co.jp]
  ChatGPTについては、
  https://www.itmedia.co.jp/news/articles/2307/20/news160.html [itmedia.co.jp]
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  人間が作ってきた「自然な」データ以外にAIが吐いたものを取り込んだせいでは？
  今後AIが吐き出したデータは加速度的に増えるし、未成熟なAIもいっぱいあるなかでそうなるのは仕方ないかもしれない。
ん? (スコア:0)

by Anonymous Coward on 2023年07月26日 17時53分 (#4501062)

ChatGPTの2021年縛り最新モデルでは解除されたの? そうじゃなかったら全然関係ねえだろ。とくにセンシティブな話題は絶対に人為的な操作のせいだろ
学習の手法を買えないと駄目じゃないかな (スコア:0)

by Anonymous Coward on 2023年07月26日 18時21分 (#4501076)

言葉の意味を理解できる汎用AIが必要になるとは思うけど
今の学習方法は端的に言えば単語の出現率を学んでるだけじゃないか？
確かにチャット方式だと知能があるように思えるが、犬の話題を語っているときにAI側で犬について考えている訳では無いと思う
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AIの議論って、こういう毒にも薬にもならない一般論が沢山出てくるなって印象。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    実現可能性の低さから「毒にも薬にもならない」と言いたいのは分かりますが……
    特化型AIは山程あれど、実際シンギュラリティを起こすレベルに至るには汎用AI（要するにドラえもんの様な知能）が出来ないと厳しいんじゃないかね
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    記号接地問題、ですね。シニフィアンとシニフィエの問題、と言ってもいいかもしれません。
    > 犬の話題を語っているときにAI側で犬について考えている訳では無い
    言語学、記号論、哲学といった分野になってくるので、技術寄りの人には退屈な論点かもしれませんが、
    ひと昔の前の言い方である「強いAI」を目指すなら、避けて通れない話題でもあります。
    # 広い意味での哲学とこれまた広い意味での情報技術にまたがった天才が出てくるまでは、シンギュラリティは遠いのではないかと夢想
  - - Re: (スコア:0)
      
      by Anonymous Coward
      
      AIの進歩に夢見てる人に
      「今の」AIの話するのってボケてると思いますよ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Transformerモデルは「出現率を学んでいる」というよりも、単語の意味することの「関係性を学んでいる」の方が表現として近そうです。なので、今のChatGPTには「知能がある」というよりも、知能があるように見せかけられるだけの「関係性を学んでいる」という方が表現として近いはずです。
  > 犬の話題を語っているときにAI側で犬について考えている訳では無いと思う
  その通りと思います。
  - Re:学習の手法を買えないと駄目じゃないかな (スコア:1)
    
    by Anonymous Coward on 2023年07月26日 23時19分 (#4501261)
    
    「知能がある」というよりも、知能があるように見せかけられるだけの「関係性を学んでいる」
    見せかけられるというか、知能の一端なんじゃないでしょうか。全部ではないにせよ。大量の文章から、単語の共起にまつわる潜在的な関係性を抽出し、そこから逆にそれらしい文章を推論する能力。人間も深く考えずにしゃべるときは案外このくらいのモードで動いてるかもしれない。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      子供が文章らしい言葉を喋りだすころの感じかな
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    犬の話題をしてるときは犬関連の情報が出やすくなってるわけで、
    それが犬について考えているわけではないと断言できるかどうかは議論があるんじゃないの
- Re: (スコア:0)
  
  by Anonymous Coward
  
  犬の話題を語っている人間って本当に犬について何か考えているの？
  って話や
  犬に関連する様々なデータを引っ張り出して、それを組み合わせて文を作っている
  というならそれはまさにAIがやってることだし
  犬のクオリアが発生してるんだよ
  とのたまうなら、まずそれをここにお出ししてくれませんか
  ということ。
まぁなんとかなるんじゃ (スコア:0)

by Anonymous Coward on 2023年07月26日 19時34分 (#4501129)

素人考えだけど、そこらにごろごろしてる低品質なデータを使えるようにする（In the wild）とか、出力を人力で順位付けさせて強化学習する（Human in the loop）とか、手はいろいろ出てくると思う。まあ、そういう手を考えにゃだめよ、という警鐘ととらえることはできるかもだけど。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AIの生成した低品質なデータを自己消費した結果どんどん馬鹿になっているというデータがあったような
  そして既にAI生成データが氾濫しすぎていて見分けるのも難しいとか
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    人間の集合知と一緒か
学習データの著作権侵害の訴訟をするには (スコア:0)

by Anonymous Coward on 2023年07月26日 19時52分 (#4501144)

2026年まで待てばいいってこと?
- Re: (スコア:0)
  
  by Anonymous Coward
  
  録画していたペンディングトレイン見終わったところ。
  2026年12月9日に全てが終わるってことなんだな :-P
ストリートビュー (スコア:0)

by Anonymous Coward on 2023年07月26日 20時14分 (#4501162)

カメラとマイクを付けた車を街に走らせてデータ収集すればいいのでは？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  そうするとAIが謎の陰謀論にハマってしまうのでは・・・
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ネコと和解せよ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  カメラとマイクを付けた車を街に走らせてデータ収集すればいいのでは？
  そしてストリートビューにきさらぎ駅が、、、
人間だって (スコア:0)

by Anonymous Coward on 2023年07月27日 0時23分 (#4501281)

現存する書物やデータでなんとかかんとかやりくりしているというのに、贅沢物が……
データ汚染問題 (スコア:0)

by Anonymous Coward on 2023年07月27日 8時09分 (#4501350)

2023年以降に作られたデータは生成AIによるもの(フェイク含む)の汚染を疑わないといけないだろうな
arXivみたいな論文サイトにも嘘論文があふれ、それを学習データに使ったAIがさらに嘘をまきちらす地獄
ファクトチェックというものが崩壊すると民主主義が終わるとも言われているが・・・
- Re: (スコア:0)
  
  by Anonymous Coward
  
  みんなが望んだシンギュラリティ後の世界
「気にならなくなる」という世界線は来るか？ (スコア:0)

by Anonymous Coward on 2023年07月27日 9時03分 (#4501379)

AIが出力した文章をAIに食わすとヘンになる、というお話もあるのね。
Aiが出力した文章を大量に読んで育った人間が増えて
そんな人間が書いた文章をAIが食って学習して
そんなAIが出力した文章で、また人間は育っていって
を繰り返したらどうなるのっと。
21世紀前半に生きてる人間にとっては「何だこの文章」となるものでも
未来の人間は「まあこんなもんでしょ」となったりして。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

本を読めばよいのだ (スコア:4, すばらしい洞察)

Re:本を読めばよいのだ (スコア:1)

Re: (スコア:0)

Re:本を読めばよいのだ (スコア:1)

Re: (スコア:0)

需要と供給のバランス (スコア:2)

真贋、裏取り、公序良俗の判定まで (スコア:1)

Re: (スコア:0)

果たして (スコア:0)

Re:果たして (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

そりゃあ (スコア:0)

Re: (スコア:0)

モデル自食症 (スコア:3)

Re: (スコア:0, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:そりゃあ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

誰か変なもの食わしてる？ (スコア:0)

Re:誰か変なもの食わしてる？ (スコア:2, 参考になる)

Re: (スコア:0)

ん? (スコア:0)

学習の手法を買えないと駄目じゃないかな (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:学習の手法を買えないと駄目じゃないかな (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

まぁなんとかなるんじゃ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

学習データの著作権侵害の訴訟をするには (スコア:0)

Re: (スコア:0)

ストリートビュー (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

人間だって (スコア:0)

データ汚染問題 (スコア:0)

Re: (スコア:0)

「気にならなくなる」という世界線は来るか？ (スコア:0)