パスワードを忘れた? アカウント作成
628069 journal

geln12の日記: 隠された文書 4

日記 by geln12

某サイトのhtmlソースを表示してみたら、<body>の直下に次のタグが入っていた。

<input TYPE="hidden" NAME="dummystrings" VALUE="この文字列は、漢字コードの判定をより正確にするために与えるものであり、プログラムでは一切使用されないダミーの文字列である。SJISコードは多くの問題を抱えている。例えば2バイト目にバックスラッシュが含まれるコードなどは、C言語にとって厄介なコードとなる。圭、宗、といった文字コードがそうだ。またSJISはEUCコードの空間と重なる部分があるため、SJIS,EUC判定にミスが発生する可能性もある。漢字コードをより正確に判定するには、多くの情報(文字)を与えればよい">

その前、<head>のところには
<meta HTTP-EQUIV="Content-Type" CONTENT="text/html;CHARSET=euc-jp">
が書かれています。

こういうの流行っているんですか?
そうなのか?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by 9DO (15174) on 2004年04月08日 21時46分 (#528667) 日記
    むかーし、友人がHTML書くときに「拳」をおまじないで入れとくと
    文字化けしなくなるよー。と言っていたのを思い出します。

    実のところは先頭がfd、ffのEUC文字であればなんでもよいとか。
    • by 9DO (15174) on 2004年04月08日 21時57分 (#528676) 日記
      うろ覚えだったのでいい加減な事を書いてしまった…。

      EUC の文字をシフト JIS に誤判別させない為の文字は? [biglobe.ne.jp]
      親コメント
      • by geln12 (18637) on 2004年04月09日 19時11分 (#529234) 日記
        それなら、「漢字コードをより正確に判定するには、多くの情報(文字)を与えればよい」というのは嘘ですね。「方向」とか「入口」とか「傲慢」とか書いておけばいいだけですし。
        #htmlソースのトップにいきなり「傲慢」て書いてあるページは嫌かも

        …あれ、私が引用した文に9DOさんが入れたリンク先の「第2バイトが fd の漢字」「第2バイトが fe の漢字」って入っています?見つけられないのですが…
        親コメント
        • by 9DO (15174) on 2004年04月12日 9時36分 (#530247) 日記
          おはようございます。


          引用した文には第2バイトがfd,feの文字は無いですね…。
          これは、文字をたくさんいれておけば判別の精度が上がる、と飛躍しすぎてしまったのでは。

          拳をいれる件も最初は、何それ?都市伝説じゃないの?と思いましたし。理由を勘違いして
          しまったのではないかと。formになっている所をみると、送信文字列に対してのものかも
          しれませんが、まったく意味がないと言うか…。

          いきなり傲慢は驚くかも、御笑覧下さい、と書いておけ気づかれずに対策できて意味も通るかな。
          親コメント
typodupeerror

人生の大半の問題はスルー力で解決する -- スルー力研究専門家

読み込み中...