アカウント名:
パスワード:
OCRソフトって、ただ似ている字形をコード化してるだけなの? アルファベットの大文字小文字もけっこう上手に認識してたけど、日本語は辞書とか使って正しそうな文章を推定したりしてないの?
一般の文書でもよくある話なので、それほど立派な性能はないのでしょう。古書とかをOCRで写して再版しようなんて時には、校正担当が目を皿にして確認しないとまともな状態で出版できないそうです。
# こんなのを検索避けの陰謀だなんて考えるような連中って、よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
>よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
逆。普段から他人に騙されたり陥れられたりばかりしてるから、少しでも「わかる」物が出てきた時に過剰反応してるの。可哀想なんだよ。
科学用語に疎い辞書だったのでしょう。
> このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えて
会社名にも疎いみたいね。(これ、業務での実用に堪えないレベルじゃ……)
pdfの中身は間違っていなかったみたいだけど、htmlはOCRソフトで、pdfは手打ちで書いてたってことなのかな?ふ~ん……。
辞書もってないタイプのOCR使ったんでしょう。手元にある「いきなりPDF to Data」が同じような誤認識します。
例えばこのファイル [fukushima.jp]は画像だけのPDFのように見えるけど、googleの検索結果 [google.co.jp]では文字が表示されるので、googleが勝手にテキスト化しているだけのように思えます。
すみません。元記事よく読まなかったので忘れてください。
OCRソフトは昔のしか使ったことが無いのだが、今は音声認識などはソフトが抱えてる大量のデータセットを元に高精度な処理を実現してるのだから、最新のOCRソフトがそうなっていなかったとしたら不思議で仕方ない
話題になったPDFファイルのひとつを開いてプロパティを見ると「Acrobat Distiller 9.0.0」ってありましたよ。Acrobat9にもOCR機能はあったので、恐らくそれが使われたのではないでしょうか。2008年のソフトですね。国産でもないし、日本語認識が賢くなくてもまあ仕方ないかも知れません。
ってか、「Acrobat9はサポート切れだから使用禁止」って触れて回っている身としては腰が砕けそう。
職場のPCに残ってるDocuworks 7同梱版のPDF Creation Addonは大丈夫だろうな、と調べてみたらアウトだったー! [fujixerox.co.jp]
でもサポート情報の指示どおりDW 7.3xへのアップデートはしてるんだよな。これにより富士ゼロックスのPDF変換ツールに置き換えられると思ったんだが、文書のプロパティではAcrobat Elements 9.0.0と出る。Acrobat Elementsって随分前にディスコンしたはずだけど、OEMはこっそり続いてるのかしら。
辞書なかったんじゃない、あっても逆に誤変換することも多いし。
あと一般的なOCRは、ひらがな>カタカナ>数字・アルファベット>漢字>記号の順か意匠が単純なもの>複雑なもの、という優先順位で評価するので、カと力は本当に良くある誤検出。
ロと口とか文字として統一しちまえば誤検出なくなるジャンって言うのはどうか口の読みに「ろ」を加えりゃすむしな
ロと口と□いえば、ANA機内の非常□を思い出す。
うん。あれは格好悪い。
そう、googleなら google日本語入力の単語辞書とかで訂正してそうだけどなあ。
20以上前に OCR 関係の仕事した時は、住所辞書とか業務用語集とかを使って、OCRの読取り結果(候補文字)を訂正する機能を付けた。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
Stableって古いって意味だっけ? -- Debian初級
辞書使わないの? (スコア:0)
OCRソフトって、ただ似ている字形をコード化してるだけなの? アルファベットの大文字小文字もけっこう上手に認識してたけど、日本語は辞書とか使って正しそうな文章を推定したりしてないの?
Re:辞書使わないの? (スコア:3, 参考になる)
一般の文書でもよくある話なので、それほど立派な性能はないのでしょう。
古書とかをOCRで写して再版しようなんて時には、校正担当が目を皿にして確認しないとまともな状態で出版できないそうです。
# こんなのを検索避けの陰謀だなんて考えるような連中って、よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
Re:辞書使わないの? (スコア:3, 興味深い)
>よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
逆。
普段から他人に騙されたり陥れられたりばかりしてるから、少しでも「わかる」物が出てきた時に過剰反応してるの。
可哀想なんだよ。
Re: (スコア:0)
科学用語に疎い辞書だったのでしょう。
Re:辞書使わないの? (スコア:1)
> このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えて
会社名にも疎いみたいね。
(これ、業務での実用に堪えないレベルじゃ……)
pdfの中身は間違っていなかったみたいだけど、htmlはOCRソフトで、
pdfは手打ちで書いてたってことなのかな?
ふ~ん……。
Re: (スコア:0)
辞書もってないタイプのOCR使ったんでしょう。
手元にある「いきなりPDF to Data」が同じような誤認識します。
犯人はgoogle? (スコア:0)
例えばこのファイル [fukushima.jp]は画像だけのPDFのように見えるけど、
googleの検索結果 [google.co.jp]では文字が表示されるので、
googleが勝手にテキスト化しているだけのように思えます。
Re: (スコア:0)
すみません。元記事よく読まなかったので忘れてください。
Re: (スコア:0)
OCRソフトは昔のしか使ったことが無いのだが、今は音声認識などはソフトが抱えてる大量のデータセットを元に高精度な処理を実現してるのだから、最新のOCRソフトがそうなっていなかったとしたら不思議で仕方ない
Acrobat Distiller 9 (スコア:4, 興味深い)
話題になったPDFファイルのひとつを開いてプロパティを見ると「Acrobat Distiller 9.0.0」ってありましたよ。Acrobat9にもOCR機能はあったので、恐らくそれが使われたのではないでしょうか。2008年のソフトですね。国産でもないし、日本語認識が賢くなくてもまあ仕方ないかも知れません。
ってか、「Acrobat9はサポート切れだから使用禁止」って触れて回っている身としては腰が砕けそう。
Jubilee
Re:Acrobat Distiller 9(かなりオフトピ) (スコア:1)
職場のPCに残ってるDocuworks 7同梱版のPDF Creation Addonは大丈夫だろうな、と調べてみたらアウトだったー! [fujixerox.co.jp]
でもサポート情報の指示どおりDW 7.3xへのアップデートはしてるんだよな。
これにより富士ゼロックスのPDF変換ツールに置き換えられると思ったんだが、文書のプロパティではAcrobat Elements 9.0.0と出る。
Acrobat Elementsって随分前にディスコンしたはずだけど、OEMはこっそり続いてるのかしら。
Re: (スコア:0)
Re: (スコア:0)
辞書なかったんじゃない、あっても逆に誤変換することも多いし。
あと一般的なOCRは、ひらがな>カタカナ>数字・アルファベット>漢字>記号の順か
意匠が単純なもの>複雑なもの、という優先順位で評価するので、カと力は本当に良くある誤検出。
Re: (スコア:0)
ロと口とか文字として統一しちまえば誤検出なくなるジャンって言うのはどうか
口の読みに「ろ」を加えりゃすむしな
Re: (スコア:0)
ロと口と□いえば、ANA機内の非常□を思い出す。
Re: (スコア:0)
うん。
あれは格好悪い。
Re: (スコア:0)
そう、googleなら google日本語入力の単語辞書とかで訂正してそうだけどなあ。
20以上前に OCR 関係の仕事した時は、住所辞書とか業務用語集とかを使って、
OCRの読取り結果(候補文字)を訂正する機能を付けた。