OpenAIが「GPT-4」を発表、司法試験で上位10％の性能を達成

OpenAIが「GPT-4」を発表、司法試験で上位10％の性能を達成 85

ストーリー by nagazou 2023年03月16日 18時04分
進化部門より

OpenAIは14日、対話ソフト「ChatGPT」にも採用されている大規模言語モデルの最新版「GPT-4」を発表した。GPT-4はChatGPTのコア技術を進化させ、より広範な一般知識と問題解決能力を備えた。より難解な問題に対してより正確な回答を提供できるようになったとしている（BRIDGE、ITmedia、窓の杜）。

これにより、GPT-4は司法試験などの専門テストで「人間レベルの能力を発揮できる」としている。また質問者から画像情報を受け取り、これに対しても適切な情報も返せるようになったという。公開したデモでは卵や小麦粉の画像と一緒に「この材料で何が作れるか」と尋ねると「パンケーキ」などと答えたとされている。司法試験の模擬問題を解かせたところ、現在の「ChatGPT」が採用しているGPT-3.5では受験者の下位10％ほどのスコアしか取れなかったが、GPT-4では上位10％のスコアで合格することができたという。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索85コメント Log In/Create an Account

脚本の依頼をしてみた (スコア:0)

by Anonymous Coward on 2023年03月16日 18時13分 (#4428087)

ワンピースのワノ国編の続きを書いてもらいました。
※AIが作った話です。本編とは異なります。
ワノ国編の続きを考えて完結する話を書いてみました。
ルフィはカイドウとの激闘の末に勝利し、オロチも討たれてワノ国は解放される。しかし、その直後にビッグ・マムが現れてカイドウの仇を討とうとする。ルフィはビッグ・マムとも戦うが、体力と食料が尽きてしまう。そこにサンジがおでんの鍋を持って駆けつけ、ルフィに食べさせる。おでんの鍋はカイドウが残していったもので、カイドウはかつておでんと共に食べたことがある。おでんの鍋を食べたルフィは力を取り戻し、ビッグ・マムに最後の一撃を与える。ビッグ・マムは敗北を認め、ルフィに四皇の座を譲る。ルフィは四皇になることを断り、自分は海賊王になると宣言する。そして、ワノ国の仲間たちと別れて次の冒険へと旅立つ。
- Re: (スコア:0, すばらしい洞察)
  
  by Anonymous Coward
  
  …そういうもん披露しあうフェーズはもう終わってると思うんだが
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    世界はお前の都合で動いてはいないのよ
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      それは周回遅れの人に言ってあげた方がいいセリフでは？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      文句を言いたいお年頃の人が居るんだろう
      まあワンピースで言われても俺も分からんけど、文句はない
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    残念コメントありがとう。
    AIの精度や機能などで大きな改善や変化を体験するためにこうやって使ってみた結果を見えるのは大切だし、分かりやすいよね。
    新しいバージョンの向上を試すということを否定するのなら、引っ込んでろよ、ってしかお前には言えないね。
    興味が無い、話の邪魔をしたいだけなら引っ込んでろ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ハンタの続きをお願いしたい
  - Re:脚本の依頼をしてみた (スコア:1)
    
    by Anonymous Coward on 2023年03月17日 10時28分 (#4428402)
    
    ガラスの仮面の方が
    
    シェア
    
    親コメント
司法試験と言っても (スコア:0)

by Anonymous Coward on 2023年03月16日 18時50分 (#4428104)

日本かニューヨーク州か、ワイオミング州かで難易度がぜんぜん違うやろ
- Re:司法試験と言っても (スコア:1)
  
  by Anonymous Coward on 2023年03月17日 8時53分 (#4428365)
  
  「GPT-4」搭載ChatGPTは、日本の司法試験に合格できるか
  https://www.itmedia.co.jp/news/articles/2303/15/news200.html [itmedia.co.jp]
  GPT-3.5→不合格(話にならない)
  GPT-4→不合格(3.5の倍は取れたがまだ足りない)
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  いかにアメリカと言っても人口あたり弁護士数は日本の20倍くらいしかないので
  上位10%なら日本の司法試験の合格ラインとそんなには違わないのでは
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ニューヨークなら“K”をAIに置き換えることもできそう。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    いやあ、飯買ってくるのはまだ無理なんじゃ
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      外部につなげるようになればUber Eatsで頼んでくれそう
- Re: (スコア:0)
  
  by Anonymous Coward
  
  日本の運転免許の筆記試験も受けさせてみたいものだ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    運転免許は試験は初見の解釈には迷わす所があるけどほぼパターンだからAIの得意分野のような気はするので受けさせてみたいの自体は同意。
嘘を嘘と見抜けるようになったら (スコア:0)

by Anonymous Coward on 2023年03月16日 19時05分 (#4428117)

シンギュラリティが始まるかな?
# 嘘と冗談はどうやって見分けますか?
- Re: (スコア:0)
  
  by Anonymous Coward
  
  謬説を見抜いてくれるのかも気になりますね。
  謬説が事実として回答されてしまったら、誤解が広まることに。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    むしろ百万回つけばウソも真実になるを現実化するのがAIでしょ？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ソメイヨシノの原産地はいずれあの国になるよ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  足りない情報を理解して質問を返す能力もいると思う。わかる範囲で答え返すだけじゃ限界があるし
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ひろゆきが中に居ればおk
  …ではなく、規模とか能力とか向上してはいるけど、平気で嘘を吐くのは変わってないんだろうなあ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  > シンギュラリティが始まるかな?
  　
  おもったよりあっさり始まりましたね。
  でもスラドはそのまんまと。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  # 嘘と冗談はどうやって見分けますか?
  最初は人が教えるんでしょうね
  AIが考えたジョークに対して、それがジョークでないのか、一度だけ面白いジョークなのか、ずっと面白いジョークなのかを
  - Re:嘘を嘘と見抜けるようになったら (スコア:1)
    
    by T.Sawamoto (4142) on 2023年03月17日 9時24分 (#4428377)
    
    Why not?
    と言い出したAIをたしなめなければいけないんですね。
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    たとえば、ひろゆきの話において、語っていることが冗談か嘘かどうやって判別する？
    ひろゆき支持者は判別できてる？
    そもそも冗談や嘘を真実だと思い込んでる人間多くない？
    AIを教育する人間がバカだったらAIもバカになっちゃうという問題は、解決するのが難しい。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      裏をとれるものは裏をとるしかない
      裏がとれないものは判別しようがない
      言ってることに嘘が含まれ、それが明らかに多そうである、或いは嘘を平気で吐く、嘘を吐いたことが明らかになっても修正して謝罪しない、と思われるならそういうソースであると判定される
      ひろゆきは修正とか謝罪はしない
      よってネタ以外のソースにするのは危険である
      現在のAIにしても、明らかに嘘とそうでないものの判定が出来ていない
OpenAI (スコア:0)

by Anonymous Coward on 2023年03月16日 20時10分 (#4428166)

海外掲示板でGPT-4のネットワーク構造が論文に書かれていないとかで、OpenAI全然オープンじゃないって叩かれてた。
しばらくしたら公開するのかな？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  当初はデータセットを公開したりしていたけど今はなし。全然Openではなくなった。
  プロプリエタリまじで死ねばいいのに。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    君が作ったものを、オープンにすればいいと思うよ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    同等品が他社から出たり、なんならopenにする人達が出て来たりとかはありそう
    画像生成AIがそうだった。
    企業に囲い込まれている方が能力が高かったりはしそうだけど。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    データセット公開するとどこを参照したかバレちゃうんじゃね？
    画像生成AIではそろそろ言い訳効かなくなってきたけど、文章系も同じだろう。
    というかコピーライトを吐き出したのはサジェストタイプの文章系が先だったっけ？
    サジェスト形式より対話形式の方がボロが出にくいし、
    対話形式自体が相手に人間性を見出してしまいやすいから過大評価されやすいけど、
    本質的な所が欠けてるのは画像生成系AIと同じなんじゃないかな。
    もっと言えば画像認識系AIの頃からそうなんじゃないかと思う。
    この点Perplexity AI(や、NeevaAIとかもそうなんかな)は回答自体に出典付けるから、
    何を拾ったのかや、変な導出してないかが検証可能で良いシステムだと思うわ。
    GPTは的外れなノイズ拾ってるのに表面的にはそれらしい文体で誤答してくるから最悪。
    知ったかぶりは人間の悪い所だけど、
    GPTは積極的に知ったかぶりさせて頭が良いように見せかけるのを意図的にやってる印象。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  MS Officeだって全然MSのオフィスじゃないじゃん
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    そだねー
    言葉の再定義はMSの得意技だから
    (恨み節入ってる)
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Open＝全開
  ってわけじゃないからなあ。
  フリー＝無料
  ってわけじゃないのと同じ。
倫理性を無視すれば (スコア:0)

by Anonymous Coward on 2023年03月16日 21時08分 (#4428202)

アピールしているのも開発に時間を掛けたと言ってるのも倫理性や正確性の部分だそうな。
と考えたらおそらく数百TBのテキストデータぶち込めば似たような成果は比較的容易に再現できるような雰囲気だ。
一生懸命調整したパラメーターやら学習のコツやらは割とコピーできそうだし、学習データ自体にGPTの出力を使える。
しかも一々「倫理で答えられない」とか「そういう質問に答えるべきではない」とか言わなくなる。
一方で差別やら自殺教唆やら原作の引用やら好き放題になるけどそれで良いなら後追いは容易そう。
OpenAIが今時のIT企業としては全然オープンではないからオープンソースの倫理ガン無視類似AIが出て来るのに期待。
とはいえ学習データは基本デカいSNS系企業のものや著作権保護されてる書籍とかだから「オープンソース」ってのもおかしいが、少なくともローカルで動くものはどっかが出してくるだろう。
手元のPDFデータや漫画を読ませてみたいところ。
お高いGPUが必要になりそうだけども。
多分日本勢もやろうと思えば後追いできるだろうけど、GPT-3以降が日本語でもあんだけ強いならどっかがオプソでも出してくるならやる必要ない。
GPT-4は知らんがChatGPTはIT企業にありがちな西洋思想のリベラル君だから中国は中国思想系AIを出してきて、おそらく日本語もそこそこ通じるだろうからそれはそれでちょっと期待。
画像読み込みを再現できるかは知らん。
ミーム画像とそれのどこが面白いかのデータなんてそこらへんに転がってる気はしないが、試験系なら何とかなるかも。
何の根拠もないけど、OpenAIだけ使える特別な学習データやコピーできないノウハウがあるという雰囲気ではないような気がする。
- Re:倫理性を無視すれば (スコア:1)
  
  by minet (45149) on 2023年03月16日 23時27分 (#4428268) 日記
  
  ＞一方で差別やら自殺教唆やら原作の引用やら好き放題になるけど
  「AIのべりすと」がコンテントフィルター機能をOFFにするとまさにそうなんだよなあ
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  最後の二行について言えば、基本的にはその通りだろう
  むしろ、デフォでヘイトスピーチ垂れ流したりしないとか、
  何か変なこと言わせようと思ったら、少し頭を捻ってプロンプトを考えなければならない
  そこら辺がOpenAIのノウハウではあるだろう。仕事で使うときには重要な機能だよな
  オープンなGPT-3相当品とか、学習済みなら１台のPCに載るモデルとか、Gigazineとか読めば沢山書いてるよ？もうリンク貼るの疲れた
  画像は、ざっくり言うと画像を一次元配列にして、自然言語の単語のようにして学習させる。まあ調べてみれば良いよ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    AIのいいところは頼まれてもいないのにあなたのように喋り出さないし頼まれてもいないのに勝手に喋りだした挙げ句勝手に疲れて文句言い出したりしないところ。
    今のところは…
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      それはそうでもない気がする。
      ChatGPTでも質問によっては毎度注意書きされたりする。
      ネットのコメントを学習させたら似たようなコメントするだろうし。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      あのコメントに対して勝手にコメントして文句を言ってとか、ChatGPTですら言わないだろうなw
- Re: (スコア:0)
  
  by Anonymous Coward
  
  消費税(AI税)1%上げていいから、次世代富岳みたいなのでGPT-5相当ぐらい動かして使わせてくんないかな。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    面白い案ですね。
    #以前、どこかで国家が開発したAIがあまりにも優秀すぎると、国家間のAI開発競争が激化して国家予算の大半をAIに投資することになり、一部の国民の仕事が無くなり最終的には国が衰退するという話を読んだけれど。
    ただし日本の一部の分野では、特定の思想に偏向しているから、某国のテレビみたいに危険思考の垂れ流しになる懸念もある。
    あと最悪W*nnyみたいに犯罪ほう助で、開発者の逮捕もあり得るから、その様な危険は冒さないかと思います。
    #テレビがオレオレ詐欺の手口を公開しているが、真似をした人の犯罪ほう助でテレビの人たちが警察に捕るというニュース聞いたことないけれど。
    あと一部の政治家たちは、政治資金収支報告書や身内のＮＰＯや一般社団法人の金の流れなどが、追跡される可能性があるので積極的に法案賛成をしないはず。
    『非営利団体がマネーロンダリングの隠れみのに　2022/05/30』
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      妄想+AIか。興味深いとも、ﾂﾏﾗﾈとも、なんでこうトホホな方向なんだろうとも
- Re: (スコア:0)
  
  by Anonymous Coward
  
  中国は中国思想系AIを出してきて、おそらく日本語もそこそこ通じるだろうからそれはそれでちょっと期待。
  無理でしょ。
  AIってのは古今東西の人類の自由かつ膨大な表現活動の蓄積あってこそのものなわけで。
  表現活動に微塵の自由もない国が主導するAIなんて中国スゴイスゴイ・アメリカ死ね死ねとわめくだけの人工無能でしかない。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  お高いGPUなんてレベルじゃないよ。
  こないだ話題になったデータが少ないllama 65Bですら121GB程度ある。単純計算でグラボのメモリ121GB必要なんだよ？
  ChatGPTやGPT4など下手したらもう一桁多いレベルのメモリを要するだろうし、とてもじゃないけど買えない。
  だからローカル勢はCPUで動かすことになるし、そうすると糞遅い。
  llamaでも寝る前に質問しこんで朝にまだ回答終わってないぐらいの速度よ。
  ＃llama 7Bならそこそこ早いけど馬鹿すぎて・・・
garbage (スコア:0)

by Anonymous Coward on 2023年03月17日 9時26分 (#4428378)

＞司法試験などの専門テスト
これみたいなgarbageの少ないデータを学習すれば、そうなるのは当然のような。
「garbage in」にならないから「garbage out」にならないって。
数学 (スコア:0)

by Anonymous Coward on 2023年03月17日 9時54分 (#4428388)

質問：ｘの9乗とｘの6乗の和は３５である。ｘの値をもとめよ
回答：Something went wrong. If this issue persists please contact us through our help center at help.openai.com.
残念
- Re: (スコア:0)
  
  by Anonymous Coward
  
  質問：円周率が3.05より大きい事を証明せよ
  回答：Something went wrong. If this issue persists please contact us through our help center at help.openai.com.
  再度残念
  - - - Re:数学 (スコア:1)
        
        by Anonymous Coward on 2023年03月17日 15時40分 (#4428537)
        
        直感的に理解したいなら面積からだね。
        円の半径をr、外接n角形の一辺をLとすると、接線は中心線と直行するから、接点・角・中心を結んだ三角形は直角三角形になって、この面積は(1/2)*((1/2)L)*rだから、多角形全体の面積はその2n倍の(1/2)*nLrになる。これがPIr^2より明らかに大きいわけだから、nLは2*PI*rより大きい。すなわち、辺を全て足した長さは円周より長い。
        これをすんなり飲み込むには円周の比例定数πと面積の比例定数πが同じ値であることを受け入れる必要があるんだけれど、歴史的に言うと、アルキメデスは（おそらくユークリッド原論12巻2を踏まえて）面積の話をしてるから。Wikipediaだと「取り尽くし法」の記事に詳しく書いてある。
        https://ja.wikipedia.org/wiki/%E5%8F%96%E3%82%8A%E5%B0%BD%E3%81%8F%E3%... [wikipedia.org]
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

脚本の依頼をしてみた (スコア:0)

Re: (スコア:0, すばらしい洞察)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:脚本の依頼をしてみた (スコア:1)

司法試験と言っても (スコア:0)

Re:司法試験と言っても (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

嘘を嘘と見抜けるようになったら (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:嘘を嘘と見抜けるようになったら (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

OpenAI (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

倫理性を無視すれば (スコア:0)

Re:倫理性を無視すれば (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

garbage (スコア:0)

数学 (スコア:0)

Re: (スコア:0)

Re:数学 (スコア:1)