![人工知能 人工知能](https://srad.jp/static/topics/ai_64.png)
AIの学習データが不足する「2026年問題」 54
ストーリー by nagazou
枯渇っていうのかな 部門より
枯渇っていうのかな 部門より
ChatGPTなどに使われるAIの大規模言語モデル(LLM)の開発には多くの学習データが必要だ。この件に関しては2026年問題という問題があるそうで、Yahoo!ニュース個人の記事でまとめられている(Yahoo!ニュース個人、Business Insider)。
現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。これにより、機械学習の進歩は減速する可能性もある。
これ以外にも学習データの収集に関しては、さまざまな問題が指摘されている。多くは著作権的なものだが、データ収集のためのボット操作によるツイッターのアクセス集中もこの問題を浮き彫りにしたと言われている。大規模言語モデルの開発におけるこうした従来の手法は限界に近づいており、AI研究者たちは、合成データや他の手法で解決策を模索しているという。
オープンAIや他のAI企業は、メディアとの契約を結び、高品質のデータを取得している。また、AIによって作成された合成データも利用が広がっているが、データ汚染やモデル崩壊といった懸念も指摘されている。実際、米スタンフォード大学の調査によると、ChatGPTの簡単な数学を解く精度やセンシティブな話題に対する判断力が劇的に低下する現象も起きているそうだ(GIGAZINE)。
現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。これにより、機械学習の進歩は減速する可能性もある。
これ以外にも学習データの収集に関しては、さまざまな問題が指摘されている。多くは著作権的なものだが、データ収集のためのボット操作によるツイッターのアクセス集中もこの問題を浮き彫りにしたと言われている。大規模言語モデルの開発におけるこうした従来の手法は限界に近づいており、AI研究者たちは、合成データや他の手法で解決策を模索しているという。
オープンAIや他のAI企業は、メディアとの契約を結び、高品質のデータを取得している。また、AIによって作成された合成データも利用が広がっているが、データ汚染やモデル崩壊といった懸念も指摘されている。実際、米スタンフォード大学の調査によると、ChatGPTの簡単な数学を解く精度やセンシティブな話題に対する判断力が劇的に低下する現象も起きているそうだ(GIGAZINE)。
本を読めばよいのだ (スコア:4, すばらしい洞察)
>現在、主な収集元はインターネットとされているが、SNSなどの未編集の低品質の言語データは2030年から2050年までに、論文やWikipediaといった編集済みの高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろうと予想されているそうだ。
ChatGPTにページをめくるアームと文字認識用のカメラをつけた読書ロボを接続して世界中のあらゆる図書館の本を読み漁らせればよい
あと美術館を巡って美術品を鑑賞(撮影)するロボと
世界中の建築物を見物するロボも接続しよう
#なんかそういうロボが羨ましく思えてきた
Re:本を読めばよいのだ (スコア:1)
そのうち視界に入ったものに光弾撃ってデータ化して吸収するようになるんだな
Re: (スコア:0)
フランス書院やマドンナメイトの本とが
ルビー文庫みたいなBLとかも学んだらAIどうなっちゃうかな
ハヤカワSFとか読ませてAIテーマについて学んだAIとか
Re:本を読めばよいのだ (スコア:1)
星新一氏のショートショートに、神についての情報を片端から学習させたコンピュータが極まって神になった話があったのを思い出しました。
タイトルもそのまま「神」だったかと。
Re: (スコア:0)
googleが著作権無視でスキャンしたものを図書館みたいに公開するという話があったが、どうなったんだろう?
需要と供給のバランス (スコア:2)
不足するなら、コストをかけて信頼できるデータを作れば良い。
比較的ましなデータが無料で転がってる今が異常なだけだ。
むしろ、そうなってからがAI技術の本当の進歩がはじまるんじゃないかと思う。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
真贋、裏取り、公序良俗の判定まで (スコア:1)
嘘を嘘と見抜けないと(AIを使うのは)難しい。
それはAIの入力に対しても。
AIが嘘を嘘と見抜けるようになった時が、シンギュラリティの入り口。
そう思っている。
Re: (スコア:0)
はい、うそーん
果たして (スコア:0)
現存するすべてのデータを学習したAIモデルに、それ以上の学習は必要なのだろうか?
Re:果たして (スコア:2)
多分、喩えるなら、1980年代に物心付いてた爺婆が、まだ若かった頃、少年ジャンプの「北斗の拳」の「修羅の国」篇の最後の方で「ん?? どういう事」となった理屈の具体例を目にするのに近い事態が起きるんじゃないかと。
「北斗宗家の拳は完成された拳法たった為に、実戦での戦闘力を失なっていった」
Re: (スコア:0)
あなたの本日の体温や心拍数もデータです
Re: (スコア:0)
AIの出力をどんどんネットにアップロードして自己学習させる必要がある
スマートスピーカーで収集した言語データなども学習させればよい
Youtubeも学習データの宝庫だ
GmailのテキストなんかもGoogledが学習用データとして提供するべきだ
#新聞記事を使った学習もお忘れなく
Re: (スコア:0)
テレビという無駄に情報を垂れ流しているものもあるね
そりゃあ (スコア:0)
人間の生産物から学習する限りそうなるだろうよ
進歩を加速させるには、機械自らが学習データを生成する必要がある
Re: (スコア:0)
AI自家発電すると数世代で破綻するみたいなのを観たことがあるよ
テロメアみたいなしくみがあるのかな?
モデル自食症 (スコア:3)
https://www.itmedia.co.jp/news/articles/2307/26/news080.html [itmedia.co.jp]
「画像生成AIに“AIが作った画像”を学習させ続けると? “品質や多様性が悪化” 「モデル自食症」に
AIは人間の顔がどんなものかわかってないのでAIが生成した画像を参考にしているうちに顔に謎の縞模様をつけてしまう、というのなんかすごく怖くて面白い
Re: (スコア:0, 参考になる)
エフェクトの多重適用やフィードバックでループ(ハウリング)
を作ると周期信号やらが出て来るのは定番ではある。
これの場合は切り貼りの境界を挟んで似た構造があると切り貼り位置が安定しなくなったり
それを含む外側の構造が破綻する奴が多重発生してこうなった感はあるけど。
そもそもこういうノイズの自己増幅が仮にゼロだったとしても、
切り貼りする元データが枯渇したらどうにもならんってのが
このストーリーの趣旨なんで、これがなくても詰みではある。
Re: (スコア:0)
モデレーションがなければそうなるよね。
AIの生成物にもそのまま見れるものとそうでないものがあるんだし、両者を何らかの手段でふるいにかけなきゃいけない。
人間の作ったものを学習させるときだってタギングなんかはしてるんだし。
Re: (スコア:0)
それは現在のLLMが劣化した出力しかできないから。より優れた出力ができるなら囲碁AIみたいに自己対戦で進化できる。
Re: (スコア:0)
「勝利」という明確な目的がない場合、「より優れた出力」を判定する機能の実装が困難なのでは?
Re:そりゃあ (スコア:1)
人間に立って特に明確な目的はないので、仕組み次第では成立するのでは?
Re: (スコア:0)
そのへんが強いAIを実現するキーにはなりそう。
学習の仕組みが人間相当なら、発生学方面あたりの成果を貰って
遺伝子等により誘導される脳の初期構造だけ与えて
運用環境内に晒しておけばそれっぽく育ちそうではある。
まぁ制御されない強いAIとか暴走が怖すぎるんです実現しないでほしいけど。
Re: (スコア:0)
街頭カメラとかから色々学べそうやな
誰か変なもの食わしてる? (スコア:0)
たしかに実感としてはChatGPTは3.5から4になったときに
「おい。気でもふれたか?」って思うことがあった。
意味不明な言葉を突然しゃべりだして、「それってどういう意味?」って尋ねると
自分でも何でそんなことを言ったの分からんと答える。なんか憑りつかれてるみたいで気味悪かった。
Re:誰か変なもの食わしてる? (スコア:2, 参考になる)
DataAugmentationは学習に有効でもやりすぎるとよくない、というのは有名な話かと。
それが生成AIの出現で目立つようになったという気がします。
画像においては、
https://www.itmedia.co.jp/news/articles/2307/26/news080.html [itmedia.co.jp]
ChatGPTについては、
https://www.itmedia.co.jp/news/articles/2307/20/news160.html [itmedia.co.jp]
Re: (スコア:0)
人間が作ってきた「自然な」データ以外にAIが吐いたものを取り込んだせいでは?
今後AIが吐き出したデータは加速度的に増えるし、未成熟なAIもいっぱいあるなかでそうなるのは仕方ないかもしれない。
ん? (スコア:0)
ChatGPTの2021年縛り最新モデルでは解除されたの? そうじゃなかったら全然関係ねえだろ。とくにセンシティブな話題は絶対に人為的な操作のせいだろ
学習の手法を買えないと駄目じゃないかな (スコア:0)
言葉の意味を理解できる汎用AIが必要になるとは思うけど
今の学習方法は端的に言えば単語の出現率を学んでるだけじゃないか?
確かにチャット方式だと知能があるように思えるが、犬の話題を語っているときにAI側で犬について考えている訳では無いと思う
Re: (スコア:0)
AIの議論って、こういう毒にも薬にもならない一般論が沢山出てくるなって印象。
Re: (スコア:0)
実現可能性の低さから「毒にも薬にもならない」と言いたいのは分かりますが……
特化型AIは山程あれど、実際シンギュラリティを起こすレベルに至るには汎用AI(要するにドラえもんの様な知能)が出来ないと厳しいんじゃないかね
Re: (スコア:0)
記号接地問題、ですね。シニフィアンとシニフィエの問題、と言ってもいいかもしれません。
> 犬の話題を語っているときにAI側で犬について考えている訳では無い
言語学、記号論、哲学といった分野になってくるので、技術寄りの人には退屈な論点かもしれませんが、
ひと昔の前の言い方である「強いAI」を目指すなら、避けて通れない話題でもあります。
# 広い意味での哲学とこれまた広い意味での情報技術にまたがった天才が出てくるまでは、シンギュラリティは遠いのではないかと夢想
Re: (スコア:0)
AIの進歩に夢見てる人に
「今の」AIの話するのってボケてると思いますよ
Re: (スコア:0)
Transformerモデルは「出現率を学んでいる」というよりも、単語の意味することの「関係性を学んでいる」の方が表現として近そうです。なので、今のChatGPTには「知能がある」というよりも、知能があるように見せかけられるだけの「関係性を学んでいる」という方が表現として近いはずです。
> 犬の話題を語っているときにAI側で犬について考えている訳では無いと思う
その通りと思います。
Re:学習の手法を買えないと駄目じゃないかな (スコア:1)
見せかけられるというか、知能の一端なんじゃないでしょうか。全部ではないにせよ。大量の文章から、単語の共起にまつわる潜在的な関係性を抽出し、そこから逆にそれらしい文章を推論する能力。人間も深く考えずにしゃべるときは案外このくらいのモードで動いてるかもしれない。
Re: (スコア:0)
子供が文章らしい言葉を喋りだすころの感じかな
Re: (スコア:0)
犬の話題をしてるときは犬関連の情報が出やすくなってるわけで、
それが犬について考えているわけではないと断言できるかどうかは議論があるんじゃないの
Re: (スコア:0)
って話や
犬に関連する様々なデータを引っ張り出して、それを組み合わせて文を作っている
というならそれはまさにAIがやってることだし
犬のクオリアが発生してるんだよ
とのたまうなら、まずそれをここにお出ししてくれませんか
ということ。
まぁなんとかなるんじゃ (スコア:0)
素人考えだけど、そこらにごろごろしてる低品質なデータを使えるようにする(In the wild)とか、出力を人力で順位付けさせて強化学習する(Human in the loop)とか、手はいろいろ出てくると思う。まあ、そういう手を考えにゃだめよ、という警鐘ととらえることはできるかもだけど。
Re: (スコア:0)
AIの生成した低品質なデータを自己消費した結果どんどん馬鹿になっているというデータがあったような
そして既にAI生成データが氾濫しすぎていて見分けるのも難しいとか
Re: (スコア:0)
人間の集合知と一緒か
学習データの著作権侵害の訴訟をするには (スコア:0)
2026年まで待てばいいってこと?
Re: (スコア:0)
録画していたペンディングトレイン見終わったところ。
2026年12月9日に全てが終わるってことなんだな :-P
ストリートビュー (スコア:0)
カメラとマイクを付けた車を街に走らせてデータ収集すればいいのでは?
Re: (スコア:0)
そうするとAIが謎の陰謀論にハマってしまうのでは・・・
Re: (スコア:0)
ネコと和解せよ
Re: (スコア:0)
カメラとマイクを付けた車を街に走らせてデータ収集すればいいのでは?
そしてストリートビューにきさらぎ駅が、、、
人間だって (スコア:0)
現存する書物やデータでなんとかかんとかやりくりしているというのに、贅沢物が……
データ汚染問題 (スコア:0)
2023年以降に作られたデータは生成AIによるもの(フェイク含む)の汚染を疑わないといけないだろうな
arXivみたいな論文サイトにも嘘論文があふれ、それを学習データに使ったAIがさらに嘘をまきちらす地獄
ファクトチェックというものが崩壊すると民主主義が終わるとも言われているが・・・
Re: (スコア:0)
みんなが望んだシンギュラリティ後の世界
「気にならなくなる」という世界線は来るか? (スコア:0)
AIが出力した文章をAIに食わすとヘンになる、というお話もあるのね。
Aiが出力した文章を大量に読んで育った人間が増えて
そんな人間が書いた文章をAIが食って学習して
そんなAIが出力した文章で、また人間は育っていって
を繰り返したらどうなるのっと。
21世紀前半に生きてる人間にとっては「何だこの文章」となるものでも
未来の人間は「まあこんなもんでしょ」となったりして。