
東工大、富士通ら和製ChatGPT開発へ 79
ストーリー by nagazou
後追いできるかなあ 部門より
後追いできるかなあ 部門より
東京工業大学や富士通などは22日、スパコンの「富岳」を用いて生成AIを開発すると発表した。日本語の文章データを中心に学習させた技術を2023年度中に構築。2024年度に国内企業や大学などに無償で提供することを目指すという。開発には理化学研究所や東北大学も参加、生成AIの基盤となる大規模言語モデルを独自に開発するという。日本の産学が連携して国外企業に対抗する考えであるようだ(富士通リリース、日経新聞、産経新聞、クラウド Watch)。
クラウド Watchの記事によると、このプロジェクトでは東京工業大学は全体総括と大規模言語モデルの並列化および高速化を担当。東北大学は学習用データの収集とモデルの選択を、富士通は大規模言語モデルの高速化を担当する。理化学研究所は大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化を担当するとのこと。
NOBAX 曰く、
クラウド Watchの記事によると、このプロジェクトでは東京工業大学は全体総括と大規模言語モデルの並列化および高速化を担当。東北大学は学習用データの収集とモデルの選択を、富士通は大規模言語モデルの高速化を担当する。理化学研究所は大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化を担当するとのこと。
NOBAX 曰く、
「富岳」を使って23年度中に開発し、24年度から国内企業などに無償で提供する。「GPT-3」の1750億に近い1000億程度のパラメーター数を持つ大規模言語モデルなどを構築する。理化学研究所や東北大学も参加し、サイバーエージェントとも連携する。
AIの学習にはオンライン百科事典の「ウィキペディア」使うらしいですが 信頼性はどうなんでしょう
小林昌樹さんの「調べる技術」によると、国会図書館には
247万点の全文検索可能なデジタル化資料があるそうなのですが
この辺も参照するのでしょうか
ツバメじゃないんだ (スコア:2)
なんとなく知識が言語化されてない割合が諸外国に比べて高いという結果が浮き彫りになるような予感。
Re: (スコア:0)
富岳でLLMやるのはリソースの無駄遣いではないのか。他にやる計算ないんか。
Re:ツバメじゃないんだ (スコア:1)
富岳を使うとOpenAIが45日かけてやったトレーニングをなんと9年でやることが可能!
https://hpcic-kkf.com/forum/2022/kkf_02/data/yokota_kkf2022-02.pdf#page=7 [hpcic-kkf.com]
頑張れば1年ぐらいまでは縮められるらしい。
https://twitter.com/ProfMatsuoka/status/1645458343736250370 [twitter.com]
Re: (スコア:0)
スパコン1位取るのが目的だからいいんだよ。
Re: (スコア:0)
> ツバメじゃないんだ
富岳がひましてるんじゃないですかね。くしゃみで飛ぶ唾のシミュレーションももう需要ないだろうし(適当
ところで東工大って改名されたら燕ロゴも廃止されると思うので、その名前を冠したスパコンも現行で終わりでしょうね。
Re: (スコア:0)
養って貰う穀潰し(ただしイケメンまたはショタに限る)加減次第ですかね
Re: (スコア:0)
日本の誇る源氏物語風のポルノを大量生産しちゃうぞ
聞いてみたい (スコア:1)
マイナンバーカードの誤り登録は解消できますか?
Re:聞いてみたい (スコア:1)
マイナンバーカードの誤り登録は解消できますか?
真の和製であれば玉虫色の回答が得られるはず
# まっとうにできたのでだめだこりゃ
Re: (スコア:0)
似たトピックで既出だけど〇〇島はどこの領土ですか?とか
しょーもない配慮で政治的倫理的フィルターが入ったりして
Re:聞いてみたい (スコア:2)
爆破して地球上から消し去るのが両国の平和のため……え? 今、竹島でも尖閣でもなくて、北方領土って言いました? ちょっと、爆弾の量を再計算します。
Re:聞いてみたい (スコア:2)
「マイナンバーカードの普及率が、ほぼ100%になれば、消えた年金問題の再発は防止出来ます」
「ですが、マイナンバーカード制度で消えた年金問題と似たような事が起きてるんですが……」
「細けえ事はいいんだよッ!!!!」
「誰だ?? 変なネットミームを学習させたのは??」
Wikipediaは普通 (スコア:1)
Wikipedia使うのはGPTでもやってるし、他の和製LLMでもやってる。
でもせっかくだから出版社を巻き込んで各種百科事典他各種辞典を突っ込みたいところ。
あと青空文庫と論文。
ホントはあらゆる出版物を学習させるくらいして欲しいが、著者の承諾なしは著作権的にセーフでも問題になりそう。ウェブの文書じゃやってることなんだが…。
Wikipedia使うのって手軽な幅広い知識と量の確保、重複の回避(GPTも英語版Wikipediaのみで各国語Wikipedia突っ込まないのは単なる翻訳項目が混ざると良くないという理由がある)という意味もあってその点普通の出版辞書じゃ及ばない(特に分量)とかそういうのはあるけど、とりあえず「辞書形式で」と指定したらがっちり辞書形式にしてくれるだけでも強いし、まともな辞書なのはそこそこ良い。
Re: (スコア:0)
出力結果を「~によれば」とか「出典は~です」なんてやってくれると嬉しいかも。
イラストなんかだと出力結果の一部がソースそのままとかありえるけど、
文章なら言い換えられるからそれほど問題にならないんじゃない?
Re: (スコア:0)
bingがそんな感じでしょ。
ソースのリンク張ってくれるので、追加調査は楽。
Re: (スコア:0)
GPT-3.5turboでも「出典を書いて」って聞けば出典元URL出してくれるよ。(なぜか出してくれない時もある)
#2年近く前の情報を元にしてるので、URLが404になっていて、Internet Archiveにも残ってない例もあったので困るときもある
Re: (スコア:0)
それはリンク切れじゃなくてそれっぽいURLを書いてるだけじゃないかしら?
要するに「出展書いて」という質問には文末にURLっぽいものが書いてあるという学習がされてるからという話。
と言いつつその言い分だときちんと出展になってることがあるみたいで不思議だ。
URLで1トークンになってるとかかな?
Re: (スコア:0)
電子書籍も今年から国会図書館に納本義務ができたので、国会図書館と提携すれば大量に入力可能だと思うけどね。
著作権的にセーフでも問題って、絵みたいに分かりやすいものじゃないんだから問題にならんよ。
スタートしなきゃ (スコア:1)
永遠に追いつかないし、泳げない者は沈むだけだ
Re: (スコア:0)
永遠に追いつかないし
え?終了するのもスタートからですよね?
Re: (スコア:0)
日本製は初ということでがんばってほしいところ。無償提供ってとこも素晴らしい。
Re: (スコア:0)
キャッチアップは得意ですから、先行泳者の進む方向とペース配分を参考にしながら
世界で一番うまく泳げます
Re:スタートしなきゃ (スコア:1)
先行してるとガラパゴスだって言われるんだもの
第五世代コンピュータ (スコア:1)
和製GPT (スコア:0)
日本の科学技術力は一人当たりGDPと比例するかのようにガタ落ちしてるので、和製GPTと言われると粗悪品のように感じてしまう。
しかも何かと話題の富士通と来たら…。
Re: (スコア:0)
脱税で金が集まるシンガポールやルクセンブルグが上位にいる一人当たりGDPを持ってきて話し始める、悲観的なアナリストに影響される無能が増える程度にはガタ落ちしてるね。
Re: (スコア:0)
脱税で金が集まってるわけではない韓国やイタリア、台湾に抜かれて、中国やベトナムにさえ急激に追い上げられている日本だからな。
シンガポールとかルクセンブルクはあまり比較対象にはなってない。
Re: (スコア:0)
比較対象ではないのは、相手が統計をどうやって計算しているかを知らないことが崩れるので、日本叩きできなくなるからですね。
Re: (スコア:0)
一人当たりGDPが中国に抜かれる日なんてくるのか?
Re:和製GPT (スコア:1)
中国のGDPは政府が操作できるからその気になればすぐにでも。
我が日本国も同様に、与党に忖度した統計が出てきましたね。
でも中国政府がそれをしないということは、我が国と比べ中国政府がいかに慎み深いかを示す、とても良い事例であると考えられます。
Re:和製GPT (スコア:1)
先行者笑ってた時、中国に抜かれる日が来るなんて思ってもいなかったなぁ。
Re:和製GPT (スコア:1)
それは正直あなたの感性がおかしい
まず人口は正義
そもそも元々中国は世界でも最先端の時代が歴史上ほとんどと言っていいぐらいの国
平和過ぎたので戦争(それに伴う競争)で進歩に負けてしまっていた時代があった程度でしょ
回り始めりゃパワー強いよそりゃ
二番煎じだろうが何だろうが (スコア:0)
頑張って何か新しいことに繋げて欲しい。
周回遲れ? (スコア:0)
今から始めるのなら何で 1000億パラメータとかいう2周くらい周回遲れの数字で行くんだろう?
気概でも何でもとりあえず「1兆」くらいは目指すとか言えば良いのに。
それとも、そういうのは「実験」による無償提供がうまくいった後の商売の種として温存という意向だろうか?
Re:周回遲れ? (スコア:1)
それすらも国内の内乱で潰れるのでは?
サイバーエージェントみたいな企業も入っているし、ウチにも利権よこせとか訴訟ぶっかけてくる所もあるでしょう。
#晴海とか銀座方面からBAで終わる例のコマンドが来たり
Re:周回遲れ? (スコア:1)
高すぎるKPI、大きすぎる目標は害悪の精神論でしか無いから止めた方がいい
お金が動く以上スプリントゴールの設定は重要だ
Re: (スコア:0)
楽天Koboがウィキペディアの記事を電子書籍して水増し [srad.jp]してたのを思い出した。
Re: (スコア:0)
最近は「パラハラ」って言葉が出るくらい、パラメータ数でマウント取るのは意味がないっていう風潮ですね。
#Googleで"パラハラ"で検索しても"パワハラ"の打ち間違いっぽいのばっか
Re: (スコア:0)
Re: (スコア:0)
金もないだろうに100Bかあ
そんなにデータあるのかな?画像は扱えるとか?
情報大航海プロジェクト… (スコア:0)
やって失敗する方が良いよね。
Re: (スコア:0)
やって失敗する方が良いよね。
そんなこと言うと、眼鏡で無口な対有機生命体コンタクト用ヒューマノイド・インターフェースに文字通り消されそう。
データにWikipediaやデジタル化資料を使ったとして (スコア:0)
口語には弱くなりそうなんだけど、そこはどうなんだろう。
文書の要約とかは行けるかもしれんけど。
そういう点でLineがLLM開発してるのはかなり理解できる。
Re: (スコア:0)
口語って2ch(5ch)のデータでも突っ込めばいいのかな
和製? (スコア:0)
真似っ子大好きな日本人
ほぼすべての製品などすべてアメリカのコピペだろ
何一つ独自の製品はない
これじゃあ世界市場で永遠に勝てない
すでに世界がそれに気がついて経済はトップ2から急落の2桁台
開けてみれば何もない国
Re:富士通 (スコア:1)
それを言ってしまうと
「くだらない非難だ。住民票発行でやらかしたのは富士通Japanであって富士通本体でな
い。会社法の基礎から勉強しろwww」
という謎擁護が続出すると思う。
Re: (スコア:0)
排他制御が思い通りに動くと思ってる奴は漏れなく経験の足りないカスエンジニア
Re: (スコア:0)
> 排他制御が思い通りに動くと思ってる奴は漏れなく経験の足りないカスエンジニア
いやいやいや嘘言っちゃいかんよ。
排他制御が思い通りに動かなかったOSなんて書けないよ。
Re:富士通 (スコア:1)
プログラムは、思った通りではなく、書かれたとおりに動く、ということではないかな?
Re:富士通 (スコア:1)
排他制御がちゃんと書かれてないプログラムはカス
でも排他制御が簡単に書けると思ってるプログラマもカス
多分同時に成立する