辞書使わないの？ (#2618771) | 原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識

「原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識」記事へのコメント

記事ページを表示すべてのコメント取得

検索130コメント Log In/Create an Account

辞書使わないの？ (スコア:0)

by Anonymous Coward on 2014年06月10日 19時36分 (#2618771)

OCRソフトって、ただ似ている字形をコード化してるだけなの？アルファベットの大文字小文字もけっこう上手に認識してたけど、日本語は辞書とか使って正しそうな文章を推定したりしてないの？
- Re:辞書使わないの？ (スコア:3, 参考になる)
  
  by yasuchiyo (11756) on 2014年06月10日 20時07分 (#2618793) 日記
  
  一般の文書でもよくある話なので、それほど立派な性能はないのでしょう。
  古書とかをOCRで写して再版しようなんて時には、校正担当が目を皿にして確認しないとまともな状態で出版できないそうです。
  # こんなのを検索避けの陰謀だなんて考えるような連中って、よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
  
  シェア
  
  親コメント
  - Re:辞書使わないの？ (スコア:3, 興味深い)
    
    by Anonymous Coward on 2014年06月10日 21時34分 (#2618872)
    
    >よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
    逆。
    普段から他人に騙されたり陥れられたりばかりしてるから、少しでも「わかる」物が出てきた時に過剰反応してるの。
    可哀想なんだよ。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  科学用語に疎い辞書だったのでしょう。
  - Re:辞書使わないの？ (スコア:1)
    
    by Anonymous Coward on 2014年06月10日 19時57分 (#2618784)
    
    > このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えて
    会社名にも疎いみたいね。
    （これ、業務での実用に堪えないレベルじゃ……）
    pdfの中身は間違っていなかったみたいだけど、htmlはOCRソフトで、
    pdfは手打ちで書いてたってことなのかな？
    ふ～ん……。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  辞書もってないタイプのOCR使ったんでしょう。
  手元にある「いきなりPDF to Data」が同じような誤認識します。
- 犯人はgoogle？ (スコア:0)
  
  by roto (17040)
  
  例えばこのファイル [fukushima.jp]は画像だけのPDFのように見えるけど、
  googleの検索結果 [google.co.jp]では文字が表示されるので、
  googleが勝手にテキスト化しているだけのように思えます。
  - Re: (スコア:0)
    
    by roto (17040)
    
    すみません。元記事よく読まなかったので忘れてください。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  OCRソフトは昔のしか使ったことが無いのだが、今は音声認識などはソフトが抱えてる大量のデータセットを元に高精度な処理を実現してるのだから、最新のOCRソフトがそうなっていなかったとしたら不思議で仕方ない
  - Acrobat Distiller 9 (スコア:4, 興味深い)
    
    by Jubilee (20038) on 2014年06月10日 23時17分 (#2618941)
    
    話題になったPDFファイルのひとつを開いてプロパティを見ると「Acrobat Distiller 9.0.0」ってありましたよ。Acrobat9にもOCR機能はあったので、恐らくそれが使われたのではないでしょうか。2008年のソフトですね。国産でもないし、日本語認識が賢くなくてもまあ仕方ないかも知れません。
    ってか、「Acrobat9はサポート切れだから使用禁止」って触れて回っている身としては腰が砕けそう。
    
    --
    Jubilee
    
    シェア
    
    親コメント
    - Re:Acrobat Distiller 9（かなりオフトピ） (スコア:1)
      
      by Anonymous Coward on 2014年06月10日 23時55分 (#2618952)
      
      職場のPCに残ってるDocuworks 7同梱版のPDF Creation Addonは大丈夫だろうな、と調べてみたらアウトだったー！ [fujixerox.co.jp]
      でもサポート情報の指示どおりDW 7.3xへのアップデートはしてるんだよな。
      これにより富士ゼロックスのPDF変換ツールに置き換えられると思ったんだが、文書のプロパティではAcrobat Elements 9.0.0と出る。
      Acrobat Elementsって随分前にディスコンしたはずだけど、OEMはこっそり続いてるのかしら。
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      Xはデグレしてるわバグ満載だわで常用できる品質じゃないんだよね11で少しはよくなってんのかね
- Re: (スコア:0)
  
  by Anonymous Coward
  
  辞書なかったんじゃない、あっても逆に誤変換することも多いし。
  あと一般的なOCRは、ひらがな＞カタカナ＞数字・アルファベット＞漢字＞記号の順か
  意匠が単純なもの＞複雑なもの、という優先順位で評価するので、カと力は本当に良くある誤検出。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ロと口とか文字として統一しちまえば誤検出なくなるジャンって言うのはどうか
    口の読みに「ろ」を加えりゃすむしな
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ロと口と□いえば、ANA機内の非常□を思い出す。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        うん。
        あれは格好悪い。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  そう、googleなら google日本語入力の単語辞書とかで訂正してそうだけどなあ。
  20以上前に OCR 関係の仕事した時は、住所辞書とか業務用語集とかを使って、
  OCRの読取り結果（候補文字）を訂正する機能を付けた。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識 More ログイン

「原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識」記事へのコメント

辞書使わないの？ (スコア:0)

Re:辞書使わないの？ (スコア:3, 参考になる)

Re:辞書使わないの？ (スコア:3, 興味深い)

Re: (スコア:0)

Re:辞書使わないの？ (スコア:1)

Re: (スコア:0)

犯人はgoogle？ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Acrobat Distiller 9 (スコア:4, 興味深い)

Re:Acrobat Distiller 9（かなりオフトピ） (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

スラド