アカウント名:
パスワード:
OCR の精度すんごいいいな。手書きなのに。文脈を見て補正するとか・・。国会図書館のデジタルデータは信頼性が高いという安心の読後感。
縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。
ちなみに日本語OCRが苦戦するのはルビ。隣の行の本文と勘違いする類の間違いは日常茶飯事。このためGoogle BooksやGoogle ScholarのOCRでは、意図的にルビを無視するようにしていると思われる。
>縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。
大正11年の刊行本だから、日本の表記の歴史知っていれば『横書きは「右から読む」のが前提だった時代』の本なのに検索に「トスエクンゴラド」として登録されずに、「ドラゴンクエスト」として登録されているのはすごいのでは?
文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。日本史勉強したことがある日本人だと古い日本の新聞紙面見て横書きがどっちから書いているか即座に判断できるけど、その中に突然逆方向に書かれた横書き文が混在していたら?
文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。
辞書じゃないかな?カタカナの途中に一文字だけ漢字が現れることはあまりないと思うのでよくない例だけど、「クエスト」が辞書になければカタカナの「エ」が漢字の「工」や数字の「Ⅰ」などと認識される可能性が高くなると思う。
むかしの話、工学社の雑誌「I/O」を「エ/ロ」と読んでしまう書店員さんがいたっけ。
「I/O」はInputとOutputの話だし、動作の概念的には「エ/ロ」に通ずるものがある。その書店員さんは洞察力が深かったのだよ
#ウソデス
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell
スラド民的第一リアクション? (スコア:4, 興味深い)
OCR の精度すんごいいいな。手書きなのに。文脈を見て補正するとか・・。
国会図書館のデジタルデータは信頼性が高いという安心の読後感。
縦書き本でもキャプションは横書き (スコア:0)
縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。
ちなみに日本語OCRが苦戦するのはルビ。隣の行の本文と勘違いする類の間違いは日常茶飯事。このためGoogle BooksやGoogle ScholarのOCRでは、意図的にルビを無視するようにしていると思われる。
Re: (スコア:0)
>縦書きの本でも、図表のキャプションは横書きが多いでしょう。だから読めない方が問題。
大正11年の刊行本だから、日本の表記の歴史知っていれば『横書きは「右から読む」のが前提だった時代』の本なのに
検索に「トスエクンゴラド」として登録されずに、「ドラゴンクエスト」として登録されているのはすごいのでは?
文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。
日本史勉強したことがある日本人だと古い日本の新聞紙面見て横書きがどっちから書いているか即座に判断できるけど、その中に突然逆方向に書かれた横書き文が混在していたら?
Re: (スコア:0)
文脈を見て右から書いているのか、左から書いているのか判断しているとしても、それはそれで高度だと思う。
辞書じゃないかな?
カタカナの途中に一文字だけ漢字が現れることはあまりないと思うのでよくない例だけど、「クエスト」が辞書になければカタカナの「エ」が漢字の「工」や数字の「Ⅰ」などと認識される可能性が高くなると思う。
Re: (スコア:0)
Re: (スコア:0)
むかしの話、工学社の雑誌「I/O」を「エ/ロ」と読んでしまう書店員さんがいたっけ。
Re:縦書き本でもキャプションは横書き (スコア:0)
「I/O」はInputとOutputの話だし、動作の概念的には「エ/ロ」に通ずるものがある。
その書店員さんは洞察力が深かったのだよ
#ウソデス