akiraaniの日記: 電子書籍の海賊版チェックの難しさ 2
日記 by
akiraani
映像や音楽ならまだフォーマットが決まってるからフィンガープリントみたいな技術が使えるが、書籍の電子化は紙の書籍をスキャンして画像ベースに変換したものになる。PDFやらJPGやらフォーマットは多種多様、基本白紙に文字が印刷されているものばかりなので特徴も少なく機械的なマッチングは極めて難しい。
著作権侵害チェックの元になるデータベースも整備が難しい。印刷後のデータを取り込んだらどうなるかを考慮しないといけないので、印刷所の版下データはそのままは使えない。さらに、書籍1冊につき何百枚という数の画像がありそれぞれにフィンガープリントを仕込むとなるとチェックすべきデータ量も膨大になる。
さらに、苦労して画像マッチングデータベースを作っても、テキストをOCR後にフォントやレイアウトを変えて画像変換されたり、画像データをバイナリ変換して販売しビューアで復号する形式にするなど、低コストですり抜ける方法がたくさんある。
そうなると、人間が逐一コンテンツを表示させて目視確認するしかないわけだが、そんな豊富な知識と高度な判断が必要になる作業が可能な人材が十分な数確保できるはずもない。
現状の技術では正攻法は無理としか言いようがない。何か別のな方法、たとえば販売業者リストから海賊版を販売している悪徳業者の特徴を洗い出し、条件に合致する業者を絞り込んで事前にマークしておくなど、単純なコンテンツ監視以外の対策を考えるべきだろう。
それにしてもアンチApple信者は必死だなぁ。なんでわざわざ敵じゃない人まで一生懸命敵認定しようとするんだろう。
それKindleならできる‥‥かな? (スコア:0)
>書籍の電子化は紙の書籍をスキャンして画像ベースに変換したものになる。
ちなみにKindleストアで扱ってる奴は画像ベースじゃないらしいけどね。
どちらかというとHTMLなんかの、テキストの中に画像タグが埋め込んであるのに近い感じ。
Re:それKindleならできる‥‥かな? (スコア:1)
いや、商用の電子書籍フォーマットはXMDFもepubも.bookもそんな感じですよ。商用フォーマットで完全画像ベースなのってシグマブック向けくらいしか見たことがないです。
問題は、大半の海賊版データが「紙で販売されてる書籍をスキャンした代物」だってことで。テキストマッチングとか完全に無意味ですわ。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される