パスワードを忘れた? アカウント作成
16609332 story
人工知能

東工大、富士通ら和製ChatGPT開発へ 79

ストーリー by nagazou
後追いできるかなあ 部門より
東京工業大学や富士通などは22日、スパコンの「富岳」を用いて生成AIを開発すると発表した。日本語の文章データを中心に学習させた技術を2023年度中に構築。2024年度に国内企業や大学などに無償で提供することを目指すという。開発には理化学研究所や東北大学も参加、生成AIの基盤となる大規模言語モデルを独自に開発するという。日本の産学が連携して国外企業に対抗する考えであるようだ(富士通リリース日経新聞産経新聞クラウド Watch)。

クラウド Watchの記事によると、このプロジェクトでは東京工業大学は全体総括と大規模言語モデルの並列化および高速化を担当。東北大学は学習用データの収集とモデルの選択を、富士通は大規模言語モデルの高速化を担当する。理化学研究所は大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化を担当するとのこと。

NOBAX 曰く、

「富岳」を使って23年度中に開発し、24年度から国内企業などに無償で提供する。「GPT-3」の1750億に近い1000億程度のパラメーター数を持つ大規模言語モデルなどを構築する。理化学研究所や東北大学も参加し、サイバーエージェントとも連携する。
AIの学習にはオンライン百科事典の「ウィキペディア」使うらしいですが 信頼性はどうなんでしょう
小林昌樹さんの「調べる技術」によると、国会図書館には
247万点の全文検索可能なデジタル化資料があるそうなのですが
この辺も参照するのでしょうか

  • なんとなく知識が言語化されてない割合が諸外国に比べて高いという結果が浮き彫りになるような予感。

    ここに返信
  • by nemui4 (20313) on 2023年05月24日 16時03分 (#4465662) 日記

    マイナンバーカードの誤り登録は解消できますか?

    ここに返信
    • by Anonymous Coward on 2023年05月24日 16時33分 (#4465689)

      マイナンバーカードの誤り登録は解消できますか?

      真の和製であれば玉虫色の回答が得られるはず

      # まっとうにできたのでだめだこりゃ

    • by Anonymous Coward

      似たトピックで既出だけど〇〇島はどこの領土ですか?とか

      しょーもない配慮で政治的倫理的フィルターが入ったりして

  • by Anonymous Coward on 2023年05月24日 16時15分 (#4465668)

    Wikipedia使うのはGPTでもやってるし、他の和製LLMでもやってる。
    でもせっかくだから出版社を巻き込んで各種百科事典他各種辞典を突っ込みたいところ。
    あと青空文庫と論文。
    ホントはあらゆる出版物を学習させるくらいして欲しいが、著者の承諾なしは著作権的にセーフでも問題になりそう。ウェブの文書じゃやってることなんだが…。
    Wikipedia使うのって手軽な幅広い知識と量の確保、重複の回避(GPTも英語版Wikipediaのみで各国語Wikipedia突っ込まないのは単なる翻訳項目が混ざると良くないという理由がある)という意味もあってその点普通の出版辞書じゃ及ばない(特に分量)とかそういうのはあるけど、とりあえず「辞書形式で」と指定したらがっちり辞書形式にしてくれるだけでも強いし、まともな辞書なのはそこそこ良い。

    ここに返信
    • by Anonymous Coward

      出力結果を「~によれば」とか「出典は~です」なんてやってくれると嬉しいかも。

      イラストなんかだと出力結果の一部がソースそのままとかありえるけど、
      文章なら言い換えられるからそれほど問題にならないんじゃない?

      • by Anonymous Coward

        bingがそんな感じでしょ。
        ソースのリンク張ってくれるので、追加調査は楽。

        • by Anonymous Coward

          GPT-3.5turboでも「出典を書いて」って聞けば出典元URL出してくれるよ。(なぜか出してくれない時もある)
          #2年近く前の情報を元にしてるので、URLが404になっていて、Internet Archiveにも残ってない例もあったので困るときもある

          • by Anonymous Coward

            それはリンク切れじゃなくてそれっぽいURLを書いてるだけじゃないかしら?
            要するに「出展書いて」という質問には文末にURLっぽいものが書いてあるという学習がされてるからという話。

            と言いつつその言い分だときちんと出展になってることがあるみたいで不思議だ。
            URLで1トークンになってるとかかな?

    • by Anonymous Coward

      電子書籍も今年から国会図書館に納本義務ができたので、国会図書館と提携すれば大量に入力可能だと思うけどね。
      著作権的にセーフでも問題って、絵みたいに分かりやすいものじゃないんだから問題にならんよ。

  • by hinatan (24342) on 2023年05月24日 16時27分 (#4465683)

    永遠に追いつかないし、泳げない者は沈むだけだ

    ここに返信
    • by Anonymous Coward

      永遠に追いつかないし

      え?終了するのもスタートからですよね?

    • by Anonymous Coward

      日本製は初ということでがんばってほしいところ。無償提供ってとこも素晴らしい。

    • by Anonymous Coward

      キャッチアップは得意ですから、先行泳者の進む方向とペース配分を参考にしながら
      世界で一番うまく泳げます

  • by htakehoge (34352) on 2023年05月25日 11時21分 (#4466142)
    お呼びでない?こりゃまた失礼いたしました。
    ここに返信
  • by Anonymous Coward on 2023年05月24日 16時37分 (#4465699)

    日本の科学技術力は一人当たりGDPと比例するかのようにガタ落ちしてるので、和製GPTと言われると粗悪品のように感じてしまう。
    しかも何かと話題の富士通と来たら…。

    ここに返信
    • by Anonymous Coward

      脱税で金が集まるシンガポールやルクセンブルグが上位にいる一人当たりGDPを持ってきて話し始める、悲観的なアナリストに影響される無能が増える程度にはガタ落ちしてるね。

      • by Anonymous Coward

        脱税で金が集まってるわけではない韓国やイタリア、台湾に抜かれて、中国やベトナムにさえ急激に追い上げられている日本だからな。
        シンガポールとかルクセンブルクはあまり比較対象にはなってない。

        • by Anonymous Coward

          比較対象ではないのは、相手が統計をどうやって計算しているかを知らないことが崩れるので、日本叩きできなくなるからですね。

        • by Anonymous Coward

          一人当たりGDPが中国に抜かれる日なんてくるのか?

          • by Anonymous Coward on 2023年05月24日 20時36分 (#4465881)

            中国のGDPは政府が操作できるからその気になればすぐにでも。
            我が日本国も同様に、与党に忖度した統計が出てきましたね。
            でも中国政府がそれをしないということは、我が国と比べ中国政府がいかに慎み深いかを示す、とても良い事例であると考えられます。

          • by Anonymous Coward on 2023年05月24日 21時43分 (#4465913)

            先行者笑ってた時、中国に抜かれる日が来るなんて思ってもいなかったなぁ。

            • by Anonymous Coward on 2023年05月24日 23時00分 (#4465962)

              それは正直あなたの感性がおかしい
              まず人口は正義
              そもそも元々中国は世界でも最先端の時代が歴史上ほとんどと言っていいぐらいの国
              平和過ぎたので戦争(それに伴う競争)で進歩に負けてしまっていた時代があった程度でしょ
              回り始めりゃパワー強いよそりゃ

  • by Anonymous Coward on 2023年05月24日 16時37分 (#4465700)

    頑張って何か新しいことに繋げて欲しい。

    ここに返信
  • by Anonymous Coward on 2023年05月24日 16時49分 (#4465710)

    今から始めるのなら何で 1000億パラメータとかいう2周くらい周回遲れの数字で行くんだろう?
    気概でも何でもとりあえず「1兆」くらいは目指すとか言えば良いのに。
    それとも、そういうのは「実験」による無償提供がうまくいった後の商売の種として温存という意向だろうか?

    ここに返信
    • by Anonymous Coward on 2023年05月24日 17時00分 (#4465730)

      それすらも国内の内乱で潰れるのでは?
      サイバーエージェントみたいな企業も入っているし、ウチにも利権よこせとか訴訟ぶっかけてくる所もあるでしょう。

      #晴海とか銀座方面からBAで終わる例のコマンドが来たり

    • by Anonymous Coward on 2023年05月24日 17時37分 (#4465754)

      高すぎるKPI、大きすぎる目標は害悪の精神論でしか無いから止めた方がいい
      お金が動く以上スプリントゴールの設定は重要だ

    • by Anonymous Coward
    • by Anonymous Coward

      最近は「パラハラ」って言葉が出るくらい、パラメータ数でマウント取るのは意味がないっていう風潮ですね。

      #Googleで"パラハラ"で検索しても"パワハラ"の打ち間違いっぽいのばっか

      • by Anonymous Coward
        AIどころか古の多項式近似でさえやみくもに次数増やせばいいってもんじゃないしな
    • by Anonymous Coward

      金もないだろうに100Bかあ
      そんなにデータあるのかな?画像は扱えるとか?

  • by Anonymous Coward on 2023年05月24日 17時12分 (#4465736)

    やって失敗する方が良いよね。

    ここに返信
    • by Anonymous Coward

      やって失敗する方が良いよね。

      そんなこと言うと、眼鏡で無口な対有機生命体コンタクト用ヒューマノイド・インターフェースに文字通り消されそう。

  • by Anonymous Coward on 2023年05月24日 17時22分 (#4465746)

    口語には弱くなりそうなんだけど、そこはどうなんだろう。
    文書の要約とかは行けるかもしれんけど。

    そういう点でLineがLLM開発してるのはかなり理解できる。

    ここに返信
    • by Anonymous Coward

      口語って2ch(5ch)のデータでも突っ込めばいいのかな

  • by Anonymous Coward on 2023年05月24日 19時18分 (#4465813)

    真似っ子大好きな日本人
    ほぼすべての製品などすべてアメリカのコピペだろ
    何一つ独自の製品はない

    これじゃあ世界市場で永遠に勝てない
    すでに世界がそれに気がついて経済はトップ2から急落の2桁台
    開けてみれば何もない国

    ここに返信
typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...