geln12の日記: 隠された文書 4
日記 by
geln12
某サイトのhtmlソースを表示してみたら、<body>の直下に次のタグが入っていた。
<input TYPE="hidden" NAME="dummystrings" VALUE="この文字列は、漢字コードの判定をより正確にするために与えるものであり、プログラムでは一切使用されないダミーの文字列である。SJISコードは多くの問題を抱えている。例えば2バイト目にバックスラッシュが含まれるコードなどは、C言語にとって厄介なコードとなる。圭、宗、といった文字コードがそうだ。またSJISはEUCコードの空間と重なる部分があるため、SJIS,EUC判定にミスが発生する可能性もある。漢字コードをより正確に判定するには、多くの情報(文字)を与えればよい">
その前、<head>のところには
<meta HTTP-EQUIV="Content-Type" CONTENT="text/html;CHARSET=euc-jp">
が書かれています。
こういうの流行っているんですか?
そうなのか?
拳 (スコア:1)
文字化けしなくなるよー。と言っていたのを思い出します。
実のところは先頭がfd、ffのEUC文字であればなんでもよいとか。
Re:拳 (スコア:1)
EUC の文字をシフト JIS に誤判別させない為の文字は? [biglobe.ne.jp]
Re:拳 (スコア:1)
#htmlソースのトップにいきなり「傲慢」て書いてあるページは嫌かも
…あれ、私が引用した文に9DOさんが入れたリンク先の「第2バイトが fd の漢字」「第2バイトが fe の漢字」って入っています?見つけられないのですが…
Re:拳 (スコア:1)
引用した文には第2バイトがfd,feの文字は無いですね…。
これは、文字をたくさんいれておけば判別の精度が上がる、と飛躍しすぎてしまったのでは。
拳をいれる件も最初は、何それ?都市伝説じゃないの?と思いましたし。理由を勘違いして
しまったのではないかと。formになっている所をみると、送信文字列に対してのものかも
しれませんが、まったく意味がないと言うか…。
いきなり傲慢は驚くかも、御笑覧下さい、と書いておけ気づかれずに対策できて意味も通るかな。