パスワードを忘れた? アカウント作成
16520588 story
Digital

国立国会図書館デジタルコレクションで「ドラゴンクエスト」を検索すると大正11年の本がヒットする 23

ストーリー by nagazou
あらら 部門より

国会図書館デジタルコレクションで「ドラゴンクエスト」と検索すると、大正11年に刊行された『本居宣長稿本全集 』がヒットするという岸本元さんのツイートが話題となっている。実際の検索結果でも大正11年に博文館から出版された「本居宣長稿本全集 (苐一輯)」が見つかる(検索結果)。岸本元さんが画面キャプチャを乗せているが、どうもスキャンした原本に落書きされていた

1988年春 ファミコンゲーム「ドラゴン·クエストIII」流行。

という文字をOCRが読み取っており、それが検索に引っかかっていたようだ。このことは図書館の本に落書きするとひどいことになるという実例となっている

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by hinatan (24342) on 2023年03月07日 15時55分 (#4422767) 日記

    OCR の精度すんごいいいな。手書きなのに。文脈を見て補正するとか・・。
    国会図書館のデジタルデータは信頼性が高いという安心の読後感。

    • by Anonymous Coward

      元画像見てきたら、本文縦書きのページの上のほうに横書きで書いてある。
      これを文字の順番も正しく横書きで認識しているのはすごい。

      • by Anonymous Coward

        縦書き横書き混在の本なんてあたりまえのようにあるんだから、認識できないと使い物にならんかな。
        https://note.com/chi_ann/n/n522d17d1e64e [note.com]

      • by Anonymous Coward

        たぶん文書フォーマットのヘッダ領域として認識したんではないかなー、という気はします。

        • by Anonymous Coward

          サブタイトルとか書いてあるアレか。

          縦書きの本でも、図表の説明文とか横書きだし、意識してなかったけど結構混在してるなぁ。

    • by Anonymous Coward

      ペロペロに飽きたキッズの間で
      いかにバレずにアレげな単語や文章を書き込むかという
      OCRハックチャレンジが流行する

      • by Anonymous Coward

        そもそもバカ晒すようなキッズは国会図書館どころか学校の図書室にすら寄りつかない
        # 昼寝とかイジメをする場所程度には認識されてるかもしれませんが

    • 縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。

      ちなみに日本語OCRが苦戦するのはルビ。隣の行の本文と勘違いする類の間違いは日常茶飯事。このためGoogle BooksやGoogle ScholarのOCRでは、意図的にルビを無視するようにしていると思われる。

      • by Anonymous Coward

        >縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。

        大正11年の刊行本だから、日本の表記の歴史知っていれば『横書きは「右から読む」のが前提だった時代』の本なのに
        検索に「トスエクンゴラド」として登録されずに、「ドラゴンクエスト」として登録されているのはすごいのでは?

        文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。
        日本史勉強したことがある日本人だと古い日本の新聞紙面見て横書きがどっちから書いているか即座に判断できるけど、その中に突然逆方向に書かれた横書き文が混在していたら?

        • by Anonymous Coward

          文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。

          辞書じゃないかな?
          カタカナの途中に一文字だけ漢字が現れることはあまりないと思うのでよくない例だけど、「クエスト」が辞書になければカタカナの「エ」が漢字の「工」や数字の「Ⅰ」などと認識される可能性が高くなると思う。

          • by Anonymous Coward
            OCR「雑誌のタイトルにIとかOとかが単独で出てくるはずはないよな、これはエ/ロって名前のエロ本に違いない」
            • by Anonymous Coward

              むかしの話、工学社の雑誌「I/O」を「エ/ロ」と読んでしまう書店員さんがいたっけ。

              • by Anonymous Coward

                「I/O」はInputとOutputの話だし、動作の概念的には「エ/ロ」に通ずるものがある。
                その書店員さんは洞察力が深かったのだよ

                #ウソデス

    • by Anonymous Coward

      デジタル化製作日(W3CDTF):2011-03-31

      12年前でこの精度か

      • by Anonymous Coward

        スキャンして電子画像データ化したのは12年前かもしれないが、画像認識は適宜更新しているんじゃないだろうか。
        一度電子データにしたなら、以後は人手をかけずに高速に自動更新できるだろうし。

    • by Anonymous Coward

      OCR の精度すんごいいいな。手書きなのに。文脈を見て補正するとか・・。
      国会図書館のデジタルデータは信頼性が高いという安心の読後感。

      すみませんこの文どこを縦読みすればいいでしょうか(違

  • by Anonymous Coward on 2023年03月07日 23時48分 (#4423064)

    × ひどいことになるという実例
    ○ 面白いネタになるという提案

  • by Anonymous Coward on 2023年03月07日 18時12分 (#4422878)

    余白になどうっかり書いてはいけない

    • by Anonymous Coward

      DNAで過去の犯罪がわかるように、いずれ、この書き込みの犯人がわかる日が来るんだろうな。

      • by Anonymous Coward

        犯人はこいつ→

        という落書きを誰かがしてくれれば犯人わかるでしょう

    • by Anonymous Coward

      でも広いところに書いてたら証明の穴がすぐにわかって大定理に名前が残らなかったかも

typodupeerror

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

読み込み中...