![Digital Digital](https://srad.jp/static/topics/digital_64.png)
国立国会図書館デジタルコレクションで「ドラゴンクエスト」を検索すると大正11年の本がヒットする 23
ストーリー by nagazou
あらら 部門より
あらら 部門より
国会図書館デジタルコレクションで「ドラゴンクエスト」と検索すると、大正11年に刊行された『本居宣長稿本全集 』がヒットするという岸本元さんのツイートが話題となっている。実際の検索結果でも大正11年に博文館から出版された「本居宣長稿本全集 (苐一輯)」が見つかる(検索結果)。岸本元さんが画面キャプチャを乗せているが、どうもスキャンした原本に落書きされていた
1988年春 ファミコンゲーム「ドラゴン·クエストIII」流行。
という文字をOCRが読み取っており、それが検索に引っかかっていたようだ。このことは図書館の本に落書きするとひどいことになるという実例となっている
スラド民的第一リアクション? (スコア:4, 興味深い)
OCR の精度すんごいいいな。手書きなのに。文脈を見て補正するとか・・。
国会図書館のデジタルデータは信頼性が高いという安心の読後感。
Re: (スコア:0)
元画像見てきたら、本文縦書きのページの上のほうに横書きで書いてある。
これを文字の順番も正しく横書きで認識しているのはすごい。
Re: (スコア:0)
縦書き横書き混在の本なんてあたりまえのようにあるんだから、認識できないと使い物にならんかな。
https://note.com/chi_ann/n/n522d17d1e64e [note.com]
Re: (スコア:0)
新聞のテレビ欄なんか横書きなのに縦読みされたらとんでもないことになるケースもあるぞ
Re: (スコア:0)
こういうのか
https://news.yahoo.co.jp/articles/4b7de5c47589b37eb39e05e01f3b026968ead9b8 [yahoo.co.jp]
この場合、読んだほうがいいのか?読まないほうがいいのか?
Re: (スコア:0)
たぶん文書フォーマットのヘッダ領域として認識したんではないかなー、という気はします。
Re: (スコア:0)
サブタイトルとか書いてあるアレか。
縦書きの本でも、図表の説明文とか横書きだし、意識してなかったけど結構混在してるなぁ。
Re: (スコア:0)
ペロペロに飽きたキッズの間で
いかにバレずにアレげな単語や文章を書き込むかという
OCRハックチャレンジが流行する
Re: (スコア:0)
そもそもバカ晒すようなキッズは国会図書館どころか学校の図書室にすら寄りつかない
# 昼寝とかイジメをする場所程度には認識されてるかもしれませんが
縦書き本でもキャプションは横書き (スコア:0)
縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。
ちなみに日本語OCRが苦戦するのはルビ。隣の行の本文と勘違いする類の間違いは日常茶飯事。このためGoogle BooksやGoogle ScholarのOCRでは、意図的にルビを無視するようにしていると思われる。
Re: (スコア:0)
>縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。
大正11年の刊行本だから、日本の表記の歴史知っていれば『横書きは「右から読む」のが前提だった時代』の本なのに
検索に「トスエクンゴラド」として登録されずに、「ドラゴンクエスト」として登録されているのはすごいのでは?
文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。
日本史勉強したことがある日本人だと古い日本の新聞紙面見て横書きがどっちから書いているか即座に判断できるけど、その中に突然逆方向に書かれた横書き文が混在していたら?
Re: (スコア:0)
文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。
辞書じゃないかな?
カタカナの途中に一文字だけ漢字が現れることはあまりないと思うのでよくない例だけど、「クエスト」が辞書になければカタカナの「エ」が漢字の「工」や数字の「Ⅰ」などと認識される可能性が高くなると思う。
Re: (スコア:0)
Re: (スコア:0)
むかしの話、工学社の雑誌「I/O」を「エ/ロ」と読んでしまう書店員さんがいたっけ。
Re: (スコア:0)
「I/O」はInputとOutputの話だし、動作の概念的には「エ/ロ」に通ずるものがある。
その書店員さんは洞察力が深かったのだよ
#ウソデス
Re: (スコア:0)
デジタル化製作日(W3CDTF):2011-03-31
12年前でこの精度か
Re: (スコア:0)
スキャンして電子画像データ化したのは12年前かもしれないが、画像認識は適宜更新しているんじゃないだろうか。
一度電子データにしたなら、以後は人手をかけずに高速に自動更新できるだろうし。
Re: (スコア:0)
OCR の精度すんごいいいな。手書きなのに。文脈を見て補正するとか・・。
国会図書館のデジタルデータは信頼性が高いという安心の読後感。
すみませんこの文どこを縦読みすればいいでしょうか(違
図書館の本に落書きすると (スコア:1)
× ひどいことになるという実例
○ 面白いネタになるという提案
最終定理 (スコア:0)
余白になどうっかり書いてはいけない
Re: (スコア:0)
DNAで過去の犯罪がわかるように、いずれ、この書き込みの犯人がわかる日が来るんだろうな。
Re: (スコア:0)
犯人はこいつ→
という落書きを誰かがしてくれれば犯人わかるでしょう
Re: (スコア:0)
でも広いところに書いてたら証明の穴がすぐにわかって大定理に名前が残らなかったかも