パスワードを忘れた? アカウント作成
13291006 journal
教育

yasuokaの日記: 書写言語研究におけるサンプルデータの重要性と妥当性 3

日記 by yasuoka

私(安岡孝一)の2016年2月26日の日記の読者から、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。

本研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた.

そんな偏ったサンプルデータ10本で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書かれていない。pixivは本来「イラストコミュニケーションサービス」のサイトであり、イラストならまだしも、R-18小説を抽出しなければならない理由は無い。もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう。

というか、西原陽子と山西良典は、以前、キラキラネームの研究に際しても、かなりおかしなサンプルデータを使っており、私自身こっぴどく指摘した(これとかこれとかこれとかこれ)はずだ。インターネットでお手軽にサンプルデータを拾ってきたい気持ちは、まあ、理解できなくもないが、それでも研究を始める前に、そのサンプルデータの妥当性を検討しておくべきだ。サンプルデータをpixivのR-18小説に限定する妥当性があるのなら、その妥当性をぜひ明らかにしてほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
  • 今日の私(安岡孝一)の日記 [srad.jp]に、著作権法第三十条の四に関する話を、少しだけ書きました。よければどうぞ。

  • マンガと観光学(聖地巡礼)の研究をしている丹羽真人と申します。 このような問題もオタク分野がメジャーになるにつれていつかは起きるとは思っていましたが、 pixivと言うサイトをおそらく選んだ理由としては知名度、規模、そしてイラストだけでなく二次創作小説の投稿サイトとしては日本も最大規模であること等があると思います。(他のサイトにはカクヨムと小説家になろう・エブリスタ・野いちご・魔法のiらんど、 などがあるが二次創作は投稿規定で禁じられているサイトや制限があるサイトが多いこと他サイトだと極端に集めにくい場合や再追試ができないがもの、成人向けが少ないもの、もしくは規模や投稿数があまりに小さいものも多いことなどを考えたら、その点は妥当なのかと思います。 (ただしコミケや女性向けオンリーなどである二次創作と呼ばれる小説ものでもマニアックな特殊性癖物や ナマモノと呼ばれる実在人物、アイドルやスポーツ選手、俳優、ニュースキャスターなどを扱ったものはPIXIVも含め一般小説投稿サイトでは投稿数は多くありません。) そういうナマモノジャンル系の場合ではなく二次創作ものでも女性向け同人の場合検索避けなどや伏せ字、当て字、原作内容を知っている人だけが答えられるパスワードサイト、鍵付きTwitter、こういうようなものが多くあった歴史を考えると、 女性向け同人というテーマを扱う上で歴史や背景があったので配慮が足りなかったと言われてもしょうがないですね。 ナマモノジャンル系の事例だと、女性向けの同人誌を中古で扱うまんだらけなどもTwitterに商品を上げたことなどで配慮が足りないと問題が起きたことが在りました。(主にそういうジャンルは店舗委託販売などもせず、中古販売禁止、Twitterなどに載せることも禁止、もし書籍の情報を載せたのを見つけた場合は同人サークルも閉鎖などにしている作家も多い) ただ情報処理学のテーマとして扱うのであるならば、検索避けや伏せ字、当て字などで有害情報(例、薬物や売春、いじめ、アダルト、グロテスク、暴力情報、小児物、違法取引)などを検索できないというのもまた問題があります。 (個人的には規制反対派ではあるがゾーニングやフィルタリングする方法の研究は必要だとも思います) ただその情報を集めるための検索の見本やデモとしてpixivの作品をR18の中から選びそこからだけ抽出したのは比較対象実験などもなく作為的な抽出であった、 なぜこの作品を選び、そして名前を出したのか(出された方は有害作品の典型例のように受けとられてしまう)、抽出量も十分なのかということが意見も多くありました。 人工知能系でもピクシブスケッチの様な自動着色や画風タッチ学習したフィルタ加工、自動イラスト化、流行研究、自動作画、アニメーションの自動中間絵などの作成、作家分類やシチュエーション分類などや自動タグ付け、創作ネタの自動化発想支援、サブカルチャーの用語翻訳研究 こういう研究までもPIXIVが使えないと割に食う可能性があるのでうまく解決する必要があるのでしょう。
    --
    観光とマンガ研究をしていて 台湾オタク旅日記と言う本を書いた丹羽真人と申します
    • silyne(丹羽真人)さん、そういうアヤシゲな「推測」を避ける意味もあって、私(安岡孝一)は

      もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう。

      と書いたのですよ。この論文『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』の中には、「二次創作小説」という文字列は一切あらわれません。ですので「二次創作小説」にもとづく「推測」は、少なくとも私にとっては当を得ていません。元の論文をよく読んでから、もう少しちゃんとした「推測」をおこなうべきだろうと思います。

      親コメント
typodupeerror

犯人はmoriwaka -- Anonymous Coward

読み込み中...