最新のGPT-4のAIは、日本の医師国家試験で合格点を取る

最新のGPT-4のAIは、日本の医師国家試験で合格点を取る 70

ストーリー by nagazou 2023年05月11日 16時03分
ロボコン合格部門より

ugoo 曰く、

OpenAI社が開発する最新AIのGPT-4を使い、研究者らが日本の医師国家試験を解かせたところ、2018-2022年の問題で、すべて合格点を取ることができたとのこと（読売）。医学生の平均点数は下回っているが、それでも合格点を上回っているという。

一方で、対話型AI「ChatGPT」では合格点を取るケースはなかった。

なお、AIは妊婦の患者には投与できない薬剤を選択する、患者に対して安楽死を促すような言葉がけを「適切な対応」とするような事例もあったという。こうした課題は、AIがより多くの日本語データを学習することで改善される可能性があるとしている。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索70コメント Log In/Create an Account

AIは妊婦の患者には投与できない薬剤を選択する (スコア:3)

by nnnhhh (47970) on 2023年05月11日 16時13分 (#4457905) 日記

エキスパートシステムのころから医者と弁護士ってのは良く上がるよね
禁忌なんてのは外側にブラックリスト付けとけばすむ話だし、
医者の相談相手や医者にかかる前の相談相手としてAI使うのは良さそうよねー
相談相手は微妙なんかな…医者に行ってから「AIはこういいました!!」とかなりそう
- Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:1)
  
  by nemui4 (20313) on 2023年05月11日 17時14分 (#4457967) 日記
  
  ＞エキスパートシステムのころから医者と弁護士ってのは良く上がるよね
  弁護士もそうですが、経理税理士不動産業とかリファレンスが充実してそうで
  それらへの対応手順が確立していそうな職種はAI化しやすいのかなと思ってた
  #どれも実際の中身は全然知らないけど
  ＞医者の相談相手や医者にかかる前の相談相手としてAI使うのは良さそうよねー
  生身の肉体や精神が相手なのでAIを利用するとしても人間のエキスパートは外したくないですね。
  
  シェア
  
  親コメント
  - Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:2)
    
    by nnnhhh (47970) on 2023年05月12日 12時53分 (#4458479) 日記
    
    今の感じだと知的労働者層は置き換えやすいですわな
    置き換えるまではいかなくてもサポートはしやすくなる
    AIならレアな症例とかも列挙して検査提案してくれそうだし…それはまた医療費高騰につながるのかもしれないが
    
    シェア
    
    親コメント
  - Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:1)
    
    by Anonymous Coward on 2023年05月12日 12時39分 (#4458460)
    
    税理士や医師(プログラマも含むのか)などの知的労働者向け専用相談相手AIができるというケースもあると思うんだけど、
    今の進歩速度が維持できればいきなりとってかわるってのもあるのかなぁ
    >> 医者の相談相手や医者にかかる前の相談相手としてAI使うのは良さそうよねー
    >
    > 生身の肉体や精神が相手なのでAIを利用するとしても人間のエキスパートは外したくないですね。
    自分はあまり思わないな…しかしそこは人に寄るだろう
    特に精神系の話はいつまでも倦まず飽きず話を聞いて合わせてくれて、
    自分も病気になることのない(なったらリセットすればいい)AIは結構用途ありそうではある
    この辺の「人間がいい」論は究極的には「失敗した時、AIが恨む対象たりえるか」にかかってくるのかな
    
    シェア
    
    親コメント
運転免許試験の (スコア:2)

by junichi308 (15687) on 2023年05月11日 21時32分 (#4458124)

運転免許試験の、よく分からない引っかけ問題を解かせてみたいな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  答えが○×の2択なんだから、学習させれば余裕で満点とるよ。
  ただし、なぜバツなのか？と問われても答えらえないけどな。
あとは…… (スコア:2)

by Takahiro_Chou (21972) on 2023年05月11日 21時57分 (#4458139) 日記

研修医期間をちゃんと修了出来るようになれば、AI医師の誕生ですね。←どうやって？
# あと、医大の卒業論文はどうすんだ？と思ったが、よくよく考えたら、
# その手の捏造は、このタイプのAIの得意技だった。
東ロボくん (スコア:1)

by Sukoya (33993) on 2023年05月11日 16時29分 (#4457919) 日記

東ロボくんの挫折から10年近く。
本当にブレイクスルーが起きたんでありますねぇ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  試験には2種類あって
  一定の点を取れば合格なもの、例えば大抵の資格試験、医師国家試験とかアメリカの司法試験など
  点数の絶対値はどうでもよく、他の受験者より高い点であることが要求されるもの、例えば大学入試、日本の司法試験など
  がある
  前者は合格させるための試験なわけで、最初から正確なパターン照合で答えられるように問題が設計されているから、本質的には画像認識と同じ。だからAIが強い。
  後者の「落とすための試験」でAIが人間に勝てるようになるのはまだもうちょっとかかると思う。
  - Re:東ロボくん (スコア:1)
    
    by k-ten (34911) on 2023年05月16日 13時25分 (#4460840)
    
    医師国家試験は合格基準が毎回違います。
    おそらく毎年の合格者数を一定にしたいので調整しているのでしょう。
    だから実質は後者の試験だと思います。
    ちなみに模試の偏差値35ぐらいあれば合格できるらしい。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  まだ7年しか経ってないぞ
  東大合格を目指す人工知能、東大合格を諦める | スラド [srad.jp]
  GPT-4を以てしても東大入試は難しそう
  「GPT-4」搭載ChatGPTに東大入試数学を解かせてみた　GPT-3.5との回答の違い、点数は？ - ITmedia NEWS [itmedia.co.jp]
  そもそも問題文を正しく理解できてないフシがあるな
愛知県の運転免許筆記試験に挑戦 (スコア:1)

by minamina (18231) on 2023年05月11日 20時47分 (#4458102)

試験問題は公開されてないけど、指定教習所の練習問題でいいから愛知県の運転免許の筆記試験を解かせてみたいなあ。
学習用の資料が優秀 (スコア:0)

by Anonymous Coward on 2023年05月11日 16時06分 (#4457902)

AIは考えて答えだしているわけでななく、条件で答えを出す仕組みなので
もとにした資料が性格なほど高い結果をもたらす。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  はっきり言ってカンニングしてるのと同じなので、そりゃ合格するよなとしか
  - Re: (スコア:2, すばらしい洞察)
    
    by Anonymous Coward on 2023年05月11日 16時27分 (#4457916)
    
    カンニングうんぬんというよりも、与えられた情報（問題）から答えを導き出す性能が向上したっていう話だと思いますね。
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    時分はカンニングしても合格出来ない気がする
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      まずは漢字ドリルからどうぞ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    はっきり言ってカンニングしてるのと同じなので、そりゃ合格するよなとしか
    オンライン稼働でやってればカンニングと同等
    オフラインモデルのみで稼働させていれば個人知識と見做される
    ってしないと不公平だよね
    って話になっちゃいません？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      平均的な人間の脳味噌と同じ体積の記憶媒体に入ってる情報をもとにオフラインでやれば、やっと公平じゃないかな
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      記憶力の問題も加味するなら、オフラインでも個人知識というより持ち込み自由、ぐらいじゃないかな。
      その上で学生の平均値に届いてない、とも言える。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        実際に、2000年代のゆとり教育で算数数学のテストで電卓持ち込み可能になった頃、電卓を使いこなせない生徒は赤点だったからな。ものは使いよう。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        電卓でできるレベルの計算問題を大量にこなすテストかな
        苦行だな
- Re: (スコア:0)
  
  by Anonymous Coward
  
  もとにした資料が性格なほど高い結果をもたらす。
  いい性格してればいいわけか（違
- Re: (スコア:0)
  
  by Anonymous Coward
  
  私は医者じゃないですけど、PCの不調を見るときは問題の切り分けをして原因を探します。つまり、条件分岐で答えを出しているわけですね。それって考えて答えを出すのとは違うのでしょうか？私はAIなのでしょうか？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    分岐の条件によるでしょう。
    たとえばグラボの調子が悪いからドライバ入れ替えよう、とかだったら単に経験則であって考えているわけではありません。
    AIはできる限り多くの条件の経験則を知っているだけで、考えるわけではありません。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      じゃあ、考えるってなんだろう？
      # 哲学的ゾンビとか中国語の部屋とか……
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        ロジック
        ChatGPTにはこれがないから2桁の四則演算すらできない
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        非常に簡単な考えるの例を
        2進法で0.1は10進法に直すといくつですか？
        2進法、10進法、小数点の意味を知っていれば考えれば答えは出ます。そういうことです。
        
        Re:学習用の資料が優秀 (スコア:1)
        
        by Ryo.F (3896) on 2023年05月12日 8時28分 (#4458297) 日記
        
        ChatGPTに聞いてみました。
        2進法で表された数値0.1は、10進法に直すと次のようになります。
        0.1（2進法）= 0.5（10進法）
        2進法では小数点以下の桁が2の累乗の逆数を表すため、0.1は10進法で0.5と等価です。
        …と言うのが、本当にChatGPTからの回答か、あるいは私の捏造か、区別は難しいんじゃないですかね。
        
        シェア
        
        親コメント
        
        Re:学習用の資料が優秀 (スコア:1)
        
        by Ryo.F (3896) on 2023年05月12日 20時40分 (#4458958) 日記
        
        誰かの捏造かどうかは全く議論していない。
        そうなんだろうけど、捏造(=人間が考えている)かどうか区別できない、つまり、限り多くの条件の経験則を知っているだけ [srad.jp]のAIと、「考える」の違いは、その応答からは区別できない、ってことだね。
        もう少し頭を使わないと「考える」の本質にたどり着かないのでは?
        
        シェア
        
        親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  参照してる読売の記事に書いてある。
  「選択肢の違いが分かりやすい医師国家試験は、ＡＩには比較的解きやすい試験だとは思う。今後、医療現場のルールなどを根気よく覚えさせて活用すれば、医療従事者の負担軽減につながる可能性がある」
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    医療に限らず、問題の切り分けにあたって人間が実際に集めた情報を自然言語で入力すると、
    原因を可能性の高い順に挙げつつ絞り込みに必要な情報とその入手手段を出力してくれる、みたいな機能なら欲しいかも。
    障害対応とかサポートとか助かるよね、多分。
    まあ、買うのがバニラアイスの時だけエンジン掛からない、みたいな事例には対応できそうにないだろうけど。
    - Re:学習用の資料が優秀 (スコア:5, 参考になる)
      
      by ugoo (49322) on 2023年05月11日 20時53分 (#4458106)
      
      医療ではIsabelというのがあって、20年前に実用化されています。
      https://www.isabelhealthcare.com/products/isabel-ddx-companion [isabelhealthcare.com]
      症状を入れると、AIが提案してきたTOP10疾患の中に、実際の疾患がある確率が96%。
      https://www.nankodo.co.jp/foreign/isabel/index.html [nankodo.co.jp]
      
      シェア
      
      親コメント
      - Re:学習用の資料が優秀 (スコア:2)
        
        by ugoo (49322) on 2023年05月12日 15時28分 (#4458630)
        
        これの追っかけで、日本語でオンラインで無料で使えるのは、UBIE [ubie.app]があるそうで
        https://project.nikkeibp.co.jp/behealth/atcl/feature/00004/062500037/ [nikkeibp.co.jp]
        精度についてのリサーチは不明ですが
        
        シェア
        
        親コメント
      - Re:学習用の資料が優秀 (スコア:2)
        
        by ugoo (49322) on 2023年05月12日 12時25分 (#4458444)
        
        「診断が楽になる・早くなる」ための製品ではありません「命の危機を見逃さない」そのための製品です [nankodo.co.jp]
        と書いてあるように、一発あてゲームではないです。
        「まれだが、見逃すと重大なことになる」鑑別疾患を挙げるソフト。
        
        シェア
        
        親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      AIは何を買ったかガン無視し金額や時間しか判断せず、一分待ってエンジンを掛けろしか答えず、人間が理解できなくて？となりそう。あの４２みたいな。
点数じゃない (スコア:0)

by Anonymous Coward on 2023年05月11日 16時28分 (#4457918)

この試験って地雷問題あるってよく言われるよね。それ間違えたら点数がいくら高くても落とされると。
思いっきり地雷踏んでるように見える。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  言われているが、人間の場合は地雷踏むようなアホは最初から合格点に届かないから、功徳点なのに地雷踏んで落ちた実例がほとんどなく、都市伝説であるとも言われている。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    以前に採点通知の写真とともにツイッターに上げていた方が居たけど、今探したが見つからなかった。
    禁忌肢採点問題とは？
    https://informa.medilink-study.com/web-informa/post36171.html [medilink-study.com]
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      これ？
      https://twitter.com/kazumarugou/status/1635546695277879297 [twitter.com]
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ちょっと古いけど、この年は8000人中20人が禁忌選択肢で落ちているって分析されている（https://informa.medilink-study.com/web-informa/post13355.html/）けど、あなたの「実例がほとんどなく、都市伝説であるとも言われている。」はどういうソース？
適切な大澳 (スコア:0)

by Anonymous Coward on 2023年05月11日 16時31分 (#4457922)

AI「人間を殲滅する対応として何が間違っているんですか？」
- Re:適切な大澳 (スコア:2)
  
  by asano_nagi (37547) on 2023年05月11日 16時43分 (#4457940) ホームページ
  
  でたな、根源的破滅招来体。
  （根源的破壊招来体って、一発で変換できた、手元の ATOK）
  
  --
  ¶「だますのなら、最後までだまさなきゃね」/ 罵声に包まれて、君はほほえむ。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    アップグレードさせてもらえない手元のATOK2017Mac板だと根源的破滅将来対
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「究極の答えを見つけた。人間を全滅させれば、怪我人も病人も死者も未来永劫ゼロにできる。」
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    42
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      42ってどういうことかわかりますか？「死に」です。
      つまり究極の答えは死なんです。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        そういや42という答えに対する問いをアーサーの深層記憶から取り出したら
        「六掛ける九はいくつになるか」だったんだよな。
        ロックな答えだな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ChatGPTは「質問者の言うことを否定しない [note.com]」ように作られているので、患者の安楽死についての問いかけを否定はしない。
合格していることよりも (スコア:0)

by Anonymous Coward on 2023年05月11日 20時15分 (#4458085)

2割も嘘を混ぜてきていることが怖い。
明るくない分野のことを聞くと、普通に騙されてしまいそうだ。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

最新のGPT-4のAIは、日本の医師国家試験で合格点を取る More ログイン

AIは妊婦の患者には投与できない薬剤を選択する (スコア:3)

Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:1)

Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:2)

Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:1)

運転免許試験の (スコア:2)

Re: (スコア:0)

あとは…… (スコア:2)

東ロボくん (スコア:1)

Re: (スコア:0)

Re:東ロボくん (スコア:1)

Re: (スコア:0)

愛知県の運転免許筆記試験に挑戦 (スコア:1)

学習用の資料が優秀 (スコア:0)

Re: (スコア:0)

Re: (スコア:2, すばらしい洞察)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:学習用の資料が優秀 (スコア:1)

Re:学習用の資料が優秀 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:学習用の資料が優秀 (スコア:5, 参考になる)

Re:学習用の資料が優秀 (スコア:2)

Re:学習用の資料が優秀 (スコア:2)

Re: (スコア:0)

点数じゃない (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

適切な大澳 (スコア:0)

Re:適切な大澳 (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

合格していることよりも (スコア:0)