HTML Numeric character references | mumumuの日記

mumumuの日記： HTML Numeric character references 2

日記 by mumumu 2006年07月29日 5時51分

http://www.w3.org/TR/html401/charset.html#h-5.3.1

HTML中では、数値文字参照という形で、文字を表す
ために「&#」に続けてUnicodeのコードポイントを
挿入することが許されている。Webページや果てはRSS
においてさえ、これが挿入されているケースが存在し
ている。身近なところでの良い例はEngadget Japanese
があげられるだろう。

巷では、日本語の文字列をこの数値文字参照に変換す
るケースは結構存在している。しかし、rss2imap等で
は、この逆の処理、つまり数値文字参照を文字に変換
する処理が必要である。

----

perl -MEncode -p -i -e ' s/\&#(x)?([a-f0-9]{1,5});/ my $tmpstr = ($1) ? pack( "H*", sprintf( "%08s", "$2" ) ) : pack( "N*", $2 ); Encode::encode( "iso-2022-jp", Encode::decode( "UTF-32BE", $tmpstr ) ); /eig; ' < engadget.xml

----

としたら思い通りにできた。HTMLの数値文字参照は、
Unicodeのコードポイントを10進数または16進数で表
現したものに過ぎない。それを32ビットのバイナリに
直せば UTF-32BE(LE)となる。あとはEncodeを通せば変
換し放題、というわけだ。

[ Update August 12th 6:30 JST by m ]

UTF-32BEに変換し、Encodeを使う方向で全面的に
修正。御協力頂いたumqさめ、及び某チャンネルの
方々に感謝しますm(_ _)m

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索2コメント Log In/Create an Account

数値文字参照 (スコア:1)

by Masafumi Otsune (3314) on 2007年05月16日 8時09分 (#1157677) ホームページ日記

perl -pie 'Encode::encode('iso-2022-jp', HTML::Entities::decode_entities($_));' < engadget.xml でいけるはず。

--
Masafumi Otsune [otsune.com]
- Re:数値文字参照 (スコア:1)
  
  by mumumu (13284) <reversethis-{gro.umumum} {ta} {umumum}> on 2007年05月18日 14時56分 (#1158964) ホームページ日記
  
  おおっ！　HTML::Entitiesを使えばこんなにスマートに（｀ー´）
  おつね支障ありがちょーどすm(_ _)m
  
  但し、元エントリは HTML::Entities を使わないことを念頭に置い
  て書いたものです。rss2imap では、出来うる限り使用するモジュ
  ールは増やさない、というポリシーの元で書いていたので。
  
  --
  # 無精、短気、傲慢、これ最強
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

mumumuの日記： HTML Numeric character references 2

HTML Numeric character references More ログイン

数値文字参照 (スコア:1)

Re:数値文字参照 (スコア:1)

スラド