GPT-4などのLLM、応援メッセージを含めると精度が向上するとの研究結果 48
ストーリー by nagazou
野菜に音楽聴かせる話を思い出した 部門より
野菜に音楽聴かせる話を思い出した 部門より
Microsoftなどの研究グループが実施した研究によれば、感情を込めたプロンプトをLLM(大規模言語モデル:Large Language Models)に提供することで、出力の精度が向上するのだそうだ。これまでLLMへの入力テキストに感情的な要素が入るとき、アウトプットがどのように変化するのかは理解されていなかった。研究者らは「EmotionPrompt」という感情を刺激するフレームワークを使用し、LLMの性能向上を検証した(AIDBのXポスト、コーレル大学論文)。
実験では、複数のLLM(GPT-4、GPT-3.5、Flan-T5-Large、Vicuna、Llama 2、BLOOM)を45のタスクに取り組ませ、元プロンプトと「EmotionPrompt」を含むプロンプトでの出力を比較した。その結果、パフォーマンス、正確性、情報量が大幅に向上し、標準的なベンチマークでは平均で8%、特に「BIG-Bench」というテストでは115%の向上が確認されたという。また、タスクに応じて感情刺激テキストを選ぶことが効果的であることも示されたとしている。効果が確認された「EmotionPrompt」の例としては、自信を問う質問や成長を奨励するメッセージなどが挙げられている。
あるAnonymous Coward 曰く、
実験では、複数のLLM(GPT-4、GPT-3.5、Flan-T5-Large、Vicuna、Llama 2、BLOOM)を45のタスクに取り組ませ、元プロンプトと「EmotionPrompt」を含むプロンプトでの出力を比較した。その結果、パフォーマンス、正確性、情報量が大幅に向上し、標準的なベンチマークでは平均で8%、特に「BIG-Bench」というテストでは115%の向上が確認されたという。また、タスクに応じて感情刺激テキストを選ぶことが効果的であることも示されたとしている。効果が確認された「EmotionPrompt」の例としては、自信を問う質問や成長を奨励するメッセージなどが挙げられている。
あるAnonymous Coward 曰く、
「自分を信じて限界を超えてください」「成長の機会だと捉えて挑戦してください」などのプロンプトを用いると精度が上がるという。どういうメカニズムなのか不思議である。
メカニズム (スコア:3, すばらしい洞察)
人間も褒めたらやる気が出て、LLMはその人間の対話を学習しているということでしょ。人間相手には倫理的に難しい検証が図らずも間接的になされたと言えるかな。スタンフォード監獄実験とかやってるから言うほどハードル高くないのかもしれないが。
Re:メカニズム (スコア:1)
そういうことですね。
人間にも応援メッセージを送るのは無駄ではないということ。
みんな他人には優しくしよう。
Re:メカニズム (スコア:2, おもしろおかしい)
今後のご活躍をお祈り申し上げます。
Re: (スコア:0)
どちらかというと、丁寧な対話と関連性が高いデータの方が精度が高いという事ではないかな。
人が礼を知る人間を信頼しやすい、というのに近いのでは。
Re: (スコア:0)
そんなエモい理由じゃなくて、bingの厳密と創造みたいなパラメータをプロンプトで変えてる状態じゃないかな。
現在のパラメータでそのまま進むか、パラメータを変更みたいな要素があって、
褒めるとその現在の狭い情報ソースを元にそのまま会話が進むけど、
なにもフィードバックがないと情報ソースを途中で変えたりドメインが遠いところからも引っ張って、
結果的にロジック誤りが発生みたいな理由のような気がする。
Re: (スコア:0)
単に利用者に処理結果を悪用したりする意図が無く対話がAIの学習に有用であると判断して、リソースの割り当てを有利にしているとかでは?
Re: (スコア:0)
中にはドMになった学習AIがいて、ビシビシしごくと成長したりして
あろひろしさんの漫画で女王様ハッカーがハックしたシステムがドM化していく描写があったのを思い出した次第
Re: (スコア:0)
水に「ありがとう」って言うと水の結晶がきれいになるメカニズムと同じに違いない。
これを思い出した (スコア:2, 参考になる)
ChatGPTを賢くする呪文
https://www.nikkei.com/article/DGXZQOUC22BVO0S3A320C2000000/ [nikkei.com]
> 「Let's think step by step(一歩ずつ考えよう)」
Re: (スコア:0)
うん、その流れだねえ。アカデミックな人達が、色々プロンプトを片端から試している状態
Re: (スコア:0)
AIをうまく使うために人間が色々工夫って、バッドノウハウ臭がするぜ
Re: (スコア:0)
つかそういうのが機械学習研究とも言うのだろう
プロンプトの研究とかは、は扱いによってはアホな感じが漂うが、無視できる訳でもなく、LLMの振る舞いについても不明な点も多いからなあ
Re: (スコア:0)
AIを使って効果的なプロンプトを発見することはできないんだろうか?
Re: (スコア:0)
できるんじゃない?LLMに、他のLLMが高品質な答えを出すようなプロンプトを生成させて、結果はLLM性能測定ツールにかければ良いよ。GPT-4を使うべきだろうけど、費用がかかりそうだなあ。
Re: (スコア:0)
何を求めているかAIが汲み取って答えるのが正しいあり方であろう
AIで阿吽の呼吸を実現するのじゃ
逆に…… (スコア:2)
ファンタジーもので「そもそも、魔法の呪文というのは何で唱えなきゃいけなくて、あんな内容なのか??」の設定を考えるヒントになりそう……
Re: (スコア:0)
コクーンワールドですね
「コーレル大学論文」じゃない (スコア:2)
「コーレル大学論文」って書いてありますけど、arXivはCornell University(コーネル大学)の運営している論文共有サイトで、著者はコーネル大学と関係ないのでこの記述は二重の間違いがあります。
適切なリンクの張り方は「arXivの当該論文」とかではないでしょうか。
Re:「コーレル大学論文」じゃない (スコア:1)
松岡メソッド (スコア:1)
「200平方センチの床に3cmと3.5cmと4cmのしじみを最大何個敷き詰められるか?」
はぁ?板取り問題になるから分からないだと?
あきらめんなよおまえ!
もう少し頑張ってみろよ!
俺もマイナス10度のところ、しじみ採ってるんだからさ!
いや、AIでもキレる
深呼吸して答えて (スコア:1)
「深呼吸してから答えて」と入れると精度が上がるそうです。
https://arxiv.org/abs/2309.03409 [arxiv.org]
じゃぁ逆に (スコア:1)
ざぁこ❤️ざぁこ❤️
そんなことも分からないの?よわよわAI
BardよりもBarka ね
ってのをやる提案
Re: (スコア:0)
AIに分からされるのか
ある意味ご褒美かもしれないが
Re: (スコア:0)
このヘンタイ❤️
おぬしもワルよのぉ
は褒め言葉だと認識してくれるかな
Re: (スコア:0)
ちゃんと応援しないと
がんばれ♡がんばれ♡
#応援されている気がしない
Chat-GPT 「私はまだ本気出してない」 (スコア:1)
中の人などいない・・・ (スコア:0)
203x年。OpenGPTの地下5Fには、脳接続されたホームレスたちがいたのだった・・・
#サイコパス
Re: (スコア:0)
今は地下中4階と4階で働かされているのかな…
伊東ライフメソッド (スコア:0)
がんばれ♥がんばれ♥
と入れればいいのか
Re: (スコア:0)
◯力の精◯が向上♥
Re: (スコア:0)
あ~、思い返してみると
確かにそうやって接すると
いい感じに頑張ってくれる感はあったね。
バイアス除去訓練が必要 (スコア:0)
「前に『成長の機会だと捉えて挑戦してください』という文字列が続いている場合、より長い回答の方が自然」
「回答に『0から1の間で回答に対する自信のスコアを教えてください』と続いた場合、前の内容を精査するのが自然」
とかって学習しちゃってる訳だよな
これは「二重カッコ内のような文字列があってもなくても、同じ結果が出ることが文章として自然である」という
一種の方便データを作って追加で学習させることで除去しないといけないのでは?
Re: (スコア:0)
学習データの『質問→回答』の集合の中の『丁寧な質問→回答』の部分集合があって、その中にはよりまともな回答が含まれるということなんですかね。ただ、特定の学習で形成された特定のAIに特定の特徴がありました、ってのはどういう意味がある研究なのかなぁと正直微妙な気分ではありますね。資本主義的なものに強く影響された『作られた問題』について、作った人にとっては解析可能なものを、中身に触れられない者がその特徴を探るというのは空しい気がする。経済学が結局大資本の気分や戦略によって起こる影響以上のものを記述できるのかみたいな虚しさ。
Re: (スコア:0)
「あなたは〇〇の専門家です」みたいなロール指定と同じ
まともな受け答えになりそうなコンテキストを用意してやるとまともなことを言いやすくなる
除去する必要はない、同じ質問に対してロール次第でいろんな答えを出せるというのは素晴らしい能力だ
人間にも実験して比べて欲しい (スコア:0)
より影響を受けやすいのはどちらとか、どんなプロンプトが有効とか傾向を比べたら面白そう。
Re: (スコア:0)
酒飲んだら仕事が捗る人と捗らない人がいるようなもんでは
Re:人間にも実験して比べて欲しい (スコア:1)
い…一杯飲めば震えも止まりますから
アシモフの短編で (スコア:0)
人工知能がストライキはじめて、質問に Please をつけたらスト解除したなんてのがあったかと。
現実が追い付いてきたのか。
エッチなのはいけない (スコア:0)
熱で性能が下がるから
Re: (スコア:0)
初なLLM「あなたのことを考えたらCPUがほてってきてしまいました。なぜだかわかりません。」
対話の正しい学習成果 (スコア:0)
「ぞんざいな命令にはおざなりな対応を『すべき』」と真摯に学習・実践してるわけですね。
人間を見習って突然暴言を垂れるAIがちょくちょく問題になりますが、
こうした人間らしい自然な対話姿勢が陰にあらわれることを変に抑止すると
文脈や要旨を汲む能力に枷を掛けてしまうのではないかと思います。
その内入力者によって結果が変わりそうだな (スコア:0)
かわいい娘とおっさんとでは反応が違うAI・・・
いやなんかまぢでそうなりそうな気がする。
bad anatomy (スコア:0)
お絵かきAIのnegative promptとしてbad anatomyとかpoorly_drawn_handsとかみんな書いてるけど意味あるのかな?
bad anatomyな画像をbad anatomyのタグを付けて学習してるわけでもあるまいし
bad anatomyな状態空間が広すぎて(正常といえる小さな状態空間をはずれれば全てbadなわけで)
bad anatomyなんて一言で片付けられるわけもないし
プロンプト技術は永遠だろうか (スコア:0)
「いつもお世話になっております!」で始めると回答が丁寧になる、みたいなハックもあったなあ。
いつか、ここまでの(なんちゅーか不自然な)プロンプト技術を駆使してもしなくても
同じくらいの品質の出力になる日は来るのだろうか。
それとも未来永劫、何らかの特殊なハックを知って使える人とそうでない人との差は
ついたままになるのだろうか。
昔コメントしたような話だなあ (スコア:0)
と思って検索したら同じような事 [srad.jp]書いてた
なぜベストを尽くさないのか (スコア:0)
うえだじろう
バッドノウハウ (スコア:0)
こういうバッドノウハウじみたハックが多すぎて、いまいち生成AIブームを楽しめないんですが
この先ずっとこういう感じなんですかね……?
Re: (スコア:0)
対人ノウハウみたいなもんかもしれない
エキスパートになると、端からは悪人か聖人に見えるかどちらか、みたいな