アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
普通のやつらの下を行け -- バッドノウハウ専門家
数式はどうするんだろう (スコア:0)
それとも全部画像扱い?数式と図だけ画像扱い?
Re:数式はどうするんだろう (スコア:3, 興味深い)
難しいでしょうね。
以前から、何かいいものはないかと興味を持っていますが、
今のところ良さそうなものを見つけていません。
学術雑誌を電子化して、インターネットで利用すると
いったことは、世界的には、現在、幅広く行われており
(ほとんど有料です)、私は仕事で日常的に利用しています。
ここ数年で、その電子化が急速に進んだことを実感します。
つい数年前までは10年前ぐらいの論文までしか電子化
されていなかったものが、今は創刊のものからの電子化が
すべて終わっているという例も少なくありません。
大学や研究機関の図書館等は、最近は経費削減の要求もあってか、
学術雑誌の直接の購入自体は減らし、
その代わりに、Webから文献サイトにアクセスし、
論文のダウンロードが自由にできるサイトライセンス契約
を結ぶという流れに変わってきているようです。
一方、最近の学術雑誌用原稿は、ほとんどがWordやTexで
作られており、それをベースにWebに公開している
(PDFやHTMLなど)という形が大半のようで、
PDFには、大抵多くの文字情報が埋め込まれており、
Acrobat Readerで、キーワード検索や、文字列の
コピー等が出来ます。
古い文献については、全部が画像イメージということも
少なくありませんが、とりあえず、OCRを使って文字情報も
埋め込んでいるといった処理がなされているものもあります。
但し、埋め込まれている文字が化けてたり、完全でないものも
少なくありません。
数式などは言うまでもありませんが、本文内でも
上付、下付文字などが多用されている論文が数多く
ありますからね。
Re:数式はどうするんだろう (スコア:1, すばらしい洞察)
今の規格じゃ全然足りません。(創刊時の論文なんか)
ってことで,フルテキスト付けるのって可能なんですかね?
#電子情報通信学会DVDは萌えますよ (^^;
Re:数式はどうするんだろう (スコア:0)
こんなときこそ超漢字(TRON)の出番です。
#通りすがりの匿名希望
Re:数式はどうするんだろう (スコア:1)
ただ、スキャン画像だけだと、本文のキーワード検索が出来ないので、テキストデータはとても有用だと思います。
この用途だと、数式までテキスト化する必要性は低いでしょう。
もちろん、特定の数式を検索したい場合もあるとは思うので、今後の発展に期待。(?)
Re:数式はどうするんだろう (スコア:0)
等価な書き方がいっぱいあるし、記号の選び方もいろいろ。この手の研究って、なされてるんでしょうか?
Re:数式はどうするんだろう (スコア:1)
そこらで安く売り込んでいるOCRじゃ現代仮名遣いしか処理してくれませんしでしょうから、数式ではなくて日本語のテキストすら(特別に予算と取ってOCRの開発をしない限りは)自動でテキスト化するのは無理にちかいカモ。
旧仮名遣いは、打ち込みも適切な仮名漢字変換の環境がないと思われますので、かなり労力がいりそうなきがします。
PS;少なくとも(日本の心理学で先駆者である)祖父の本を打ち込むとかOCRに掛けるのは挫折傾向にあるわけでして。
大槻昌弥(♀) http://www.ne.jp/asahi/pursuits/ootsuki/