アカウント名:
パスワード:
Wikipedia使うのはGPTでもやってるし、他の和製LLMでもやってる。でもせっかくだから出版社を巻き込んで各種百科事典他各種辞典を突っ込みたいところ。あと青空文庫と論文。ホントはあらゆる出版物を学習させるくらいして欲しいが、著者の承諾なしは著作権的にセーフでも問題になりそう。ウェブの文書じゃやってることなんだが…。Wikipedia使うのって手軽な幅広い知識と量の確保、重複の回避(GPTも英語版Wikipediaのみで各国語Wikipedia突っ込まないのは単なる翻訳項目が混ざると良くないという理由がある)という意味もあってその点普通の出版辞書じゃ及ばない(特に分量)とかそういうのはあるけど、とりあえず「辞書形式で」と指定したらがっちり辞書形式にしてくれるだけでも強いし、まともな辞書なのはそこそこ良い。
出力結果を「~によれば」とか「出典は~です」なんてやってくれると嬉しいかも。
イラストなんかだと出力結果の一部がソースそのままとかありえるけど、文章なら言い換えられるからそれほど問題にならないんじゃない?
bingがそんな感じでしょ。ソースのリンク張ってくれるので、追加調査は楽。
GPT-3.5turboでも「出典を書いて」って聞けば出典元URL出してくれるよ。(なぜか出してくれない時もある)#2年近く前の情報を元にしてるので、URLが404になっていて、Internet Archiveにも残ってない例もあったので困るときもある
それはリンク切れじゃなくてそれっぽいURLを書いてるだけじゃないかしら?要するに「出展書いて」という質問には文末にURLっぽいものが書いてあるという学習がされてるからという話。
と言いつつその言い分だときちんと出展になってることがあるみたいで不思議だ。URLで1トークンになってるとかかな?
GPTが出典らしき物を出すのは「出典とは一般論としてこういう文字列である」と知ってるだけだから本当の出典じゃない全て「一般論としてこういう文字列である」という知ったかぶりでしか無いのでデータは出せない
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell
Wikipediaは普通 (スコア:1)
Wikipedia使うのはGPTでもやってるし、他の和製LLMでもやってる。
でもせっかくだから出版社を巻き込んで各種百科事典他各種辞典を突っ込みたいところ。
あと青空文庫と論文。
ホントはあらゆる出版物を学習させるくらいして欲しいが、著者の承諾なしは著作権的にセーフでも問題になりそう。ウェブの文書じゃやってることなんだが…。
Wikipedia使うのって手軽な幅広い知識と量の確保、重複の回避(GPTも英語版Wikipediaのみで各国語Wikipedia突っ込まないのは単なる翻訳項目が混ざると良くないという理由がある)という意味もあってその点普通の出版辞書じゃ及ばない(特に分量)とかそういうのはあるけど、とりあえず「辞書形式で」と指定したらがっちり辞書形式にしてくれるだけでも強いし、まともな辞書なのはそこそこ良い。
Re:Wikipediaは普通 (スコア:0)
出力結果を「~によれば」とか「出典は~です」なんてやってくれると嬉しいかも。
イラストなんかだと出力結果の一部がソースそのままとかありえるけど、
文章なら言い換えられるからそれほど問題にならないんじゃない?
Re: (スコア:0)
bingがそんな感じでしょ。
ソースのリンク張ってくれるので、追加調査は楽。
Re: (スコア:0)
GPT-3.5turboでも「出典を書いて」って聞けば出典元URL出してくれるよ。(なぜか出してくれない時もある)
#2年近く前の情報を元にしてるので、URLが404になっていて、Internet Archiveにも残ってない例もあったので困るときもある
Re: (スコア:0)
それはリンク切れじゃなくてそれっぽいURLを書いてるだけじゃないかしら?
要するに「出展書いて」という質問には文末にURLっぽいものが書いてあるという学習がされてるからという話。
と言いつつその言い分だときちんと出展になってることがあるみたいで不思議だ。
URLで1トークンになってるとかかな?
Re: (スコア:0)
GPTが出典らしき物を出すのは「出典とは一般論としてこういう文字列である」と知ってるだけだから本当の出典じゃない
全て「一般論としてこういう文字列である」という知ったかぶりでしか無いのでデータは出せない