最新のGPT-4のAIは、日本の医師国家試験で合格点を取る 70
ストーリー by nagazou
ロボコン合格 部門より
ロボコン合格 部門より
ugoo 曰く、
OpenAI社が開発する最新AIのGPT-4を使い、研究者らが日本の医師国家試験を解かせたところ、2018-2022年の問題で、すべて合格点を取ることができたとのこと(読売)。医学生の平均点数は下回っているが、それでも合格点を上回っているという。
一方で、対話型AI「ChatGPT」では合格点を取るケースはなかった。
なお、AIは妊婦の患者には投与できない薬剤を選択する、患者に対して安楽死を促すような言葉がけを「適切な対応」とするような事例もあったという。こうした課題は、AIがより多くの日本語データを学習することで改善される可能性があるとしている。
AIは妊婦の患者には投与できない薬剤を選択する (スコア:3)
エキスパートシステムのころから医者と弁護士ってのは良く上がるよね
禁忌なんてのは外側にブラックリスト付けとけばすむ話だし、
医者の相談相手や医者にかかる前の相談相手としてAI使うのは良さそうよねー
相談相手は微妙なんかな…医者に行ってから「AIはこういいました!!」とかなりそう
Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:1)
>エキスパートシステムのころから医者と弁護士ってのは良く上がるよね
弁護士もそうですが、経理税理士不動産業とかリファレンスが充実してそうで
それらへの対応手順が確立していそうな職種はAI化しやすいのかなと思ってた
#どれも実際の中身は全然知らないけど
>医者の相談相手や医者にかかる前の相談相手としてAI使うのは良さそうよねー
生身の肉体や精神が相手なのでAIを利用するとしても人間のエキスパートは外したくないですね。
Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:2)
今の感じだと知的労働者層は置き換えやすいですわな
置き換えるまではいかなくてもサポートはしやすくなる
AIならレアな症例とかも列挙して検査提案してくれそうだし…それはまた医療費高騰につながるのかもしれないが
Re:AIは妊婦の患者には投与できない薬剤を選択する (スコア:1)
税理士や医師(プログラマも含むのか)などの知的労働者向け専用相談相手AIができるというケースもあると思うんだけど、
今の進歩速度が維持できればいきなりとってかわるってのもあるのかなぁ
>> 医者の相談相手や医者にかかる前の相談相手としてAI使うのは良さそうよねー
>
> 生身の肉体や精神が相手なのでAIを利用するとしても人間のエキスパートは外したくないですね。
自分はあまり思わないな…しかしそこは人に寄るだろう
特に精神系の話はいつまでも倦まず飽きず話を聞いて合わせてくれて、
自分も病気になることのない(なったらリセットすればいい)AIは結構用途ありそうではある
この辺の「人間がいい」論は究極的には「失敗した時、AIが恨む対象たりえるか」にかかってくるのかな
運転免許試験の (スコア:2)
運転免許試験の、よく分からない引っかけ問題を解かせてみたいな。
Re: (スコア:0)
答えが○×の2択なんだから、学習させれば余裕で満点とるよ。
ただし、なぜバツなのか?と問われても答えらえないけどな。
あとは…… (スコア:2)
研修医期間をちゃんと修了出来るようになれば、AI医師の誕生ですね。←どうやって?
# あと、医大の卒業論文はどうすんだ? と思ったが、よくよく考えたら、
# その手の捏造は、このタイプのAIの得意技だった。
東ロボくん (スコア:1)
東ロボくんの挫折から10年近く。
本当にブレイクスルーが起きたんでありますねぇ。
Re: (スコア:0)
一定の点を取れば合格なもの、例えば大抵の資格試験、医師国家試験とかアメリカの司法試験など
点数の絶対値はどうでもよく、他の受験者より高い点であることが要求されるもの、例えば大学入試、日本の司法試験など
がある
前者は合格させるための試験なわけで、最初から正確なパターン照合で答えられるように問題が設計されているから、本質的には画像認識と同じ。だからAIが強い。
後者の「落とすための試験」でAIが人間に勝てるようになるのはまだもうちょっとかかると思う。
Re:東ロボくん (スコア:1)
医師国家試験は合格基準が毎回違います。
おそらく毎年の合格者数を一定にしたいので調整しているのでしょう。
だから実質は後者の試験だと思います。
ちなみに模試の偏差値35ぐらいあれば合格できるらしい。
Re: (スコア:0)
まだ7年しか経ってないぞ
東大合格を目指す人工知能、東大合格を諦める | スラド [srad.jp]
GPT-4を以てしても東大入試は難しそう
「GPT-4」搭載ChatGPTに東大入試数学を解かせてみた GPT-3.5との回答の違い、点数は? - ITmedia NEWS [itmedia.co.jp]
そもそも問題文を正しく理解できてないフシがあるな
愛知県の運転免許筆記試験に挑戦 (スコア:1)
学習用の資料が優秀 (スコア:0)
AIは考えて答えだしているわけでななく、条件で答えを出す仕組みなので
もとにした資料が性格なほど高い結果をもたらす。
Re: (スコア:0)
はっきり言ってカンニングしてるのと同じなので、そりゃ合格するよなとしか
Re: (スコア:2, すばらしい洞察)
カンニングうんぬんというよりも、与えられた情報(問題)から答えを導き出す性能が向上したっていう話だと思いますね。
Re: (スコア:0)
時分はカンニングしても合格出来ない気がする
Re: (スコア:0)
まずは漢字ドリルからどうぞ。
Re: (スコア:0)
はっきり言ってカンニングしてるのと同じなので、そりゃ合格するよなとしか
オンライン稼働でやってればカンニングと同等
オフラインモデルのみで稼働させていれば個人知識と見做される
ってしないと不公平だよね
って話になっちゃいません?
Re: (スコア:0)
平均的な人間の脳味噌と同じ体積の記憶媒体に入ってる情報をもとにオフラインでやれば、やっと公平じゃないかな
Re: (スコア:0)
記憶力の問題も加味するなら、オフラインでも個人知識というより持ち込み自由、ぐらいじゃないかな。
その上で学生の平均値に届いてない、とも言える。
Re: (スコア:0)
実際に、2000年代のゆとり教育で算数数学のテストで電卓持ち込み可能になった頃、電卓を使いこなせない生徒は赤点だったからな。ものは使いよう。
Re: (スコア:0)
電卓でできるレベルの計算問題を大量にこなすテストかな
苦行だな
Re: (スコア:0)
もとにした資料が性格なほど高い結果をもたらす。
いい性格してればいいわけか(違
Re: (スコア:0)
私は医者じゃないですけど、PCの不調を見るときは問題の切り分けをして原因を探します。つまり、条件分岐で答えを出しているわけですね。それって考えて答えを出すのとは違うのでしょうか?私はAIなのでしょうか?
Re: (スコア:0)
分岐の条件によるでしょう。
たとえばグラボの調子が悪いからドライバ入れ替えよう、とかだったら単に経験則であって考えているわけではありません。
AIはできる限り多くの条件の経験則を知っているだけで、考えるわけではありません。
Re: (スコア:0)
じゃあ、考えるってなんだろう?
# 哲学的ゾンビとか中国語の部屋とか……
Re: (スコア:0)
ロジック
ChatGPTにはこれがないから2桁の四則演算すらできない
Re: (スコア:0)
非常に簡単な考えるの例を
2進法で0.1は10進法に直すといくつですか?
2進法、10進法、小数点の意味を知っていれば考えれば答えは出ます。そういうことです。
Re:学習用の資料が優秀 (スコア:1)
ChatGPTに聞いてみました。
…と言うのが、本当にChatGPTからの回答か、あるいは私の捏造か、区別は難しいんじゃないですかね。
Re:学習用の資料が優秀 (スコア:1)
誰かの捏造かどうかは全く議論していない。
そうなんだろうけど、捏造(=人間が考えている)かどうか区別できない、つまり、限り多くの条件の経験則を知っているだけ [srad.jp]のAIと、「考える」の違いは、その応答からは区別できない、ってことだね。
もう少し頭を使わないと「考える」の本質にたどり着かないのでは?
Re: (スコア:0)
参照してる読売の記事に書いてある。
「選択肢の違いが分かりやすい医師国家試験は、AIには比較的解きやすい試験だとは思う。今後、医療現場のルールなどを根気よく覚えさせて活用すれば、医療従事者の負担軽減につながる可能性がある」
Re: (スコア:0)
医療に限らず、問題の切り分けにあたって人間が実際に集めた情報を自然言語で入力すると、
原因を可能性の高い順に挙げつつ絞り込みに必要な情報とその入手手段を出力してくれる、みたいな機能なら欲しいかも。
障害対応とかサポートとか助かるよね、多分。
まあ、買うのがバニラアイスの時だけエンジン掛からない、みたいな事例には対応できそうにないだろうけど。
Re:学習用の資料が優秀 (スコア:5, 参考になる)
医療ではIsabelというのがあって、20年前に実用化されています。
https://www.isabelhealthcare.com/products/isabel-ddx-companion [isabelhealthcare.com]
症状を入れると、AIが提案してきたTOP10疾患の中に、実際の疾患がある確率が96%。
https://www.nankodo.co.jp/foreign/isabel/index.html [nankodo.co.jp]
Re:学習用の資料が優秀 (スコア:2)
これの追っかけで、日本語でオンラインで無料で使えるのは、UBIE [ubie.app]があるそうで
https://project.nikkeibp.co.jp/behealth/atcl/feature/00004/062500037/ [nikkeibp.co.jp]
精度についてのリサーチは不明ですが
Re:学習用の資料が優秀 (スコア:2)
「診断が楽になる・早くなる」ための製品ではありません 「命の危機を見逃さない」そのための製品です [nankodo.co.jp]
と書いてあるように、一発あてゲームではないです。
「まれだが、見逃すと重大なことになる」鑑別疾患を挙げるソフト。
Re: (スコア:0)
AIは何を買ったかガン無視し金額や時間しか判断せず、一分待ってエンジンを掛けろしか答えず、人間が理解できなくて?となりそう。あの42みたいな。
点数じゃない (スコア:0)
この試験って地雷問題あるってよく言われるよね。それ間違えたら点数がいくら高くても落とされると。
思いっきり地雷踏んでるように見える。
Re: (スコア:0)
Re: (スコア:0)
以前に採点通知の写真とともにツイッターに上げていた方が居たけど、今探したが見つからなかった。
禁忌肢採点問題とは?
https://informa.medilink-study.com/web-informa/post36171.html [medilink-study.com]
Re: (スコア:0)
これ?
https://twitter.com/kazumarugou/status/1635546695277879297 [twitter.com]
Re: (スコア:0)
ちょっと古いけど、この年は8000人中20人が禁忌選択肢で落ちているって分析されている(https://informa.medilink-study.com/web-informa/post13355.html/)けど、あなたの「実例がほとんどなく、都市伝説であるとも言われている。」はどういうソース?
適切な大澳 (スコア:0)
AI「人間を殲滅する対応として何が間違っているんですか?」
Re:適切な大澳 (スコア:2)
(根源的破壊招来体って、一発で変換できた、手元の ATOK)
¶「だますのなら、最後までだまさなきゃね」/ 罵声に包まれて、君はほほえむ。
Re: (スコア:0)
Re: (スコア:0)
「究極の答えを見つけた。人間を全滅させれば、怪我人も病人も死者も未来永劫ゼロにできる。」
Re: (スコア:0)
42
Re: (スコア:0)
42ってどういうことかわかりますか?「死に」です。
つまり究極の答えは死なんです。
Re: (スコア:0)
そういや42という答えに対する問いをアーサーの深層記憶から取り出したら
「六掛ける九はいくつになるか」だったんだよな。
ロックな答えだな。
Re: (スコア:0)
ChatGPTは「質問者の言うことを否定しない [note.com]」ように作られているので、患者の安楽死についての問いかけを否定はしない。
合格していることよりも (スコア:0)
2割も嘘を混ぜてきていることが怖い。
明るくない分野のことを聞くと、普通に騙されてしまいそうだ。