akiraaniの日記: なろう原作と、書籍版をAIに食わせたら編集校正AIが作れないだろうか? 10
日記 by
akiraani
以前に、自動生成小説に必要なのは人工作家の能力ではなく、人工編集ではないだろうか という日記を書いたことがある。
では、人工編集を学習型AIで作るために必要なデータは何かと考えると、編集前のデータと編集後のデータセットということになる。さすがにそんなデータは入手できないだろうし、上の日記では概念の提唱するところで止まってしまったのだけど、最近になってそんな都合の良いデータがいっぱい転がっている場所があることに気が付いた。
それは、小説家になろう、である。
ここでの連載で人気になって書籍版の出版にこぎつけた作品はけっこうな数があるわけだが、なろうに投稿されたバージョンは出版用語でいうところの初稿に他ならない。そこから二校やら校正やらを経て最終的に形になったものが書籍版として出版されるわけである。
つまり、なろう連載版と書籍版は、編集前のデータと編集後のデータセットなのである。
最終的に商品化するとかになるといろいろ権利問題が出てくるが、研究レベルであれば出版物を買ってきて原作を紐づけてデータセットにすることができるはず。アルゴリズムの研究をなろうのデータで行って、大手出版社に自社が持ってるデータを食わせて人工編集作りませんかと持ち掛けるとかすれば実現できたりしないだろうかね。
まあ、編集校正AIはともかくとして、小説家としての勉強になろう原作と書籍版の比較というのは大変に有効だと思われる。書籍版になって何がどう変わったのか、それはどんな効果を生んでいるのかとかきちんと考えて読むと、自然と執筆力みたいなものが上がっていくのでは。
校正どころじゃない (スコア:1)
多くのWEB小説の書籍化は、校正だけでなく大量の加筆や改稿が行われることが一般的で、
単純に比較するのは難しいような気もします。
一人以外は全員敗者
それでもあきらめるより熱くなれ
Re:校正どころじゃない (スコア:1)
なろうじゃなくてカクヨム原作を書籍と読み比べたことはあります。
元作品の完成度にもよるのかもしれませんが、同じなのは主要な登場人物や設定と大まかなあらすじ程度、
ストーリーの構成からして違っていて、原作というより原案というべきなぐらいには別物でした。
最も、そういうケースとは逆に前知識無しで読んでも明らかに元がWeb小説だとわかるくらい手が入っていないものもあるので、
サンプルとして読ませるデータをある程度人力で選別してやればなんとかなるかもしれません。
Re:校正どころじゃない (スコア:2)
そういう傾向はつかめそうですよね。まあ,校正・校閲は望み薄ですけどね。
特にKADOKAWAとか,KADOKAWAとか。
Re:校正どころじゃない (スコア:1)
アルゴリズムの調整次第ですが、文章解析が十分なレベルにあればストーリーがどう修正されたのかも重要なデータになるのでは?
サンプルの分別は必要になろうかと思いますが、改稿の度合いに分けて学習させるとか、手法はいろいろ考えられるんじゃないですかね。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:校正どころじゃない (スコア:1)
仰る通り、改稿前後の乖離度別に学習させたり、そもそもサンプルの分別自体を差の大小からアルゴリズムで判定させる等、やりようはあるかと思います。
その結果として先述した例のように改稿前後でほぼ別物になった場合、それは編集校正なのか、という疑問も生じますが、それはそれでテーマとしては面白そうではあります。
Re: (スコア:0)
初期の書籍化案件は、そういう要素もありましたが
最近の手抜き会社などから出版されると、そういう要素すら無く、そのまま出てくることも多いので、
その場合、元の小説がとてもよくできている扱いになるのでしょうか。
# 昔
# 長々と2人で会話している後で、(無意味に)片方が後ろを向いている描写が出てきて
# この作者の頭の中どうなってるんだろう?校正とか編集は?
# っていうラノベがありましてな
スラドは? (スコア:1)
タレコミ(編集前)と記事(編集後)のセットが豊富にありますよ!
Re:スラドは? (スコア:1)
それって、 diff で十分で、差は誤字しか出てこないんじゃ?
成績どうやってつける? (スコア:0)
電子書籍版買うと販売後も修正されていたりするわけで。
研究レベルであれば (スコア:0)
Pixivから引っ張ってきたBL小説をデータセットに使った論文が炎上した事件があったような…