アカウント名:
パスワード:
HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、以前ではスパムが送られてきていなかったアドレスがスパムリストに載ってしまったという。
そのJavaScriptを認証によるアクセス制限のかかっていないところに置いている時点で全然隠匿できてないわけだが.公開されているスクリプトを実行して,その結果からテキスト抽出することに何の問題もない.
BotはJavaScriptを実行できないという、メールアドレスの隠匿とは本来全然関係ない勝手な仮定が破綻しただけの話ですよね。Googleがやらなくたってspam業者が自前で走らせているbotはそのうちやるようになるに違いありませんし。
robots.txt等無視してるならクローラーが悪いんだろうけど,そういうことではなく「スクリプトまでは解釈しないだろ」っていう一方的な思い込みが裏切られたってことですからねぇ.
HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、
これだって,ブラウザはJavascriptを実行した結果として得られたHTMLを表示しているわけであって,同じHTMLからクローラーが抽出してるだけですし.
そのスクリプトが操作しているのはDOMであってHTMLじゃないとか,クローラーはブラウザに搭載されているエンジンほどは忠実にスクリプトを実行しておらず,特定のコードのパターンから文字列連結などで推定しているだけかもしれないとか,いろいろと反論することは可能ですが,やっぱりrobots.txtで明示的に意思表示しておく必要があると思います.
まぁそれでも非紳士的なクローラはたくさんありますし,本文も抽出するようなソーシャルブックマークに登録されてしまえばそっち経由で漏れますが.
逆に考えるんだ。「Googleを監視すれば悪質業者の手口が解析できる」と考えるんだ。
ブラウザ(おそらくFirefox)に独自開発アドオン組込んでbotにしていて、フルオートでクロール。JSやらFlashやらで秘匿されていようと問題なく収集する。スパム業者はそんなシステムを作って運用していると、もうかれこれ3年来信じています。だって当時そうとしか思えないところからアドレス漏れたもん。
今はJS対応botシステムくらい闇マーケットで販売してるんじゃないですか?そんでCAPCHA破りから流れてきた技術で画像から盗るOCRも載ってて不思議じゃないです。
そして旬な技術として「sample [at] example.com」 みたいな@置き換えを解読するアルゴリズムの開発を競ってやっているんじゃないかなと予想してますよ。
この記事だけじゃなく、最近の記事タイトルの偏向っぷりはひどいね……東スポ並みに事実とはかけ離れたタイトルを付けられることが多くなっている。
少し前までは「Google のやることはすべて善で Microsoft がやると悪か。偏ってんな」みたいなコメントが多かったし、これはこれでバランスがとれてんのかな。というかその調子だと何書いても「偏ってる」って言えるね。
なんかアイドルのファンに向かって、「そんなの裏で男とやりまくってるに決まってるじゃん(w」とか言ってバカにしてるレベルだよな
スパム業者も別にGoogle使ってアドレス集めてる訳でもあるまい。
問題はスパム業者の使っているクローラの性能だろ・・・
アドレスをクロールして集めるとして、スパム業者もよく使われる改変くらいは突破して集めているんじゃないですかね。
>何故Googleに焦点が?とりあえずの例としてGoogleが実際に行っているからでは?spam業者とGoogleでは規模が違う訳でして。
で、これはGoogleがどういう意図でやっているかってのが意外とGoogleという会社を判断するには参考に成るかもね。隠匿されれたメールアドレスと認識してやって居るのであれば、それはもう、自己利益の為には他人の迷惑は考えないって事だし、何等かの対処なり(最低限でテキトーなプレスリリースで注意を促すとか)がされるなら、一応外部と折り合いを付けようって意思が有るとも見れますし。
隠匿はしていないかも知れないが、これはGoogle自体も思ってなかったのでは無いかな。動的に生成されたページへのクロール効率を上げようとして引っかかっただけでしょう。技術的に認識出来る要になれば外す様になると思う。
#不特定多数からの連絡窓口の通知ってのはどうやっても知らない人間が見付けられるのが前提だしなあ。
>メールアドレスを晒す理由って何?>連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?
フォーム作る手間が大変だからじゃないですか。
連絡取って貰いたい人は、メールアドレス書くだけで、連絡を取りたい側は連絡を取るためのツール(メーラー)を自前で揃えて連絡してくれるわけで。仕組みとしては、シンプルで綺麗だと思います。(性善説が通る世界ではね)
この件、どうしてもGoogleのせいにしたいならGmailを連絡窓口にすればいいんじゃないかと思った。
Gmailにメール受付フォームを作る機能があれば便利だと思いました。いわゆる「プライベートURL」で見えるページで。もしスパムがたくさん来るようになったらその「プライベートURL」を生成しなおせばいいだけだし。
有料サービスではフォームを複数作ることができるってことにすれば収益にも貢献するんじゃないかなぁ。
#もしかして Gmail Labs に既にあったりして。
>メールアドレスを晒す理由って何?
spam収集用とか……
お忘れなくって、そんなところ借りてるのが悪いのでは?選択肢はいくらでもあるのだから引っ越せばいい。
その通り。もちろん、画像化したメールアドレスを読み取って勝手に公開しても、それは人が読めるような形でメアドを公開している方が悪いわけで。
http://images.google.co.jp/images?gbv=2&hl=ja&newwindow=1&... [google.co.jp]
結構いい確率で引っか
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
開いた括弧は必ず閉じる -- あるプログラマー
隠匿してない (スコア:5, すばらしい洞察)
そのJavaScriptを認証によるアクセス制限のかかっていないところに置いている時点で全然隠匿できてないわけだが.
公開されているスクリプトを実行して,その結果からテキスト抽出することに何の問題もない.
屍体メモ [windy.cx]
Re:隠匿してない (スコア:3, すばらしい洞察)
BotはJavaScriptを実行できないという、メールアドレスの隠匿とは本来全然関係ない勝手な仮定が破綻しただけの話ですよね。
Googleがやらなくたってspam業者が自前で走らせているbotはそのうちやるようになるに違いありませんし。
robots.txt等無視してるならクローラーが悪いんだろうけど (スコア:1)
robots.txt等無視してるならクローラーが悪いんだろうけど,
そういうことではなく「スクリプトまでは解釈しないだろ」
っていう一方的な思い込みが裏切られたってことですからねぇ.
これだって,ブラウザはJavascriptを実行した結果として得られたHTMLを表示しているわけであって,
同じHTMLからクローラーが抽出してるだけですし.
そのスクリプトが操作しているのはDOMであってHTMLじゃないとか,
クローラーはブラウザに搭載されているエンジンほどは
忠実にスクリプトを実行しておらず,特定のコードのパターンから
文字列連結などで推定しているだけかもしれないとか,
いろいろと反論することは可能ですが,やっぱりrobots.txtで
明示的に意思表示しておく必要があると思います.
まぁそれでも非紳士的なクローラはたくさんありますし,
本文も抽出するようなソーシャルブックマークに
登録されてしまえばそっち経由で漏れますが.
屍体メモ [windy.cx]
参考までに (スコア:2, 参考になる)
> っていう一方的な思い込みが裏切られたってことですからねぇ.
Web屋が新人教育やSEOの文脈で話す際は、
「現時点では全てのクローラーがJavaScriptを解するワケでは無い」
と、説明しています。
即ち、完全に意図通りに動くかどうかは兎も角として、
(また、その結果をDB等へ反映させるか否かは兎も角として、)
JavaScriptを解するクローラーが存在している事は知られていました。
Re:参考までに (スコア:1)
あらゆるクローラなんて把握できないし.
Re: (スコア:0)
逆に考えるんだ。「Googleを監視すれば悪質業者の手口が解析できる」と考えるんだ。
Re: (スコア:0)
Re: (スコア:0)
そのうちじゃなくてもう3年も前から (スコア:0)
ブラウザ(おそらくFirefox)に独自開発アドオン組込んでbotにしていて、フルオートでクロール。JSやらFlashやらで秘匿されていようと問題なく収集する。スパム業者はそんなシステムを作って運用していると、もうかれこれ3年来信じています。
だって当時そうとしか思えないところからアドレス漏れたもん。
今はJS対応botシステムくらい闇マーケットで販売してるんじゃないですか?
そんでCAPCHA破りから流れてきた技術で画像から盗るOCRも載ってて不思議じゃないです。
そして旬な技術として「sample [at] example.com」 みたいな@置き換えを解読するアルゴリズムの開発を競ってやっているんじゃないかなと予想してますよ。
Re:隠匿してない (スコア:1)
この記事だけじゃなく、最近の記事タイトルの偏向っぷりはひどいね……
東スポ並みに事実とはかけ離れたタイトルを付けられることが多くなっている。
ψアレゲな事を真面目にやることこそアレゲだと思う。
Re:隠匿してない (スコア:1)
少し前までは「Google のやることはすべて善で Microsoft がやると悪か。偏ってんな」みたいなコメントが多かったし、これはこれでバランスがとれてんのかな。というかその調子だと何書いても「偏ってる」って言えるね。
Re: (スコア:0)
なんかアイドルのファンに向かって、「そんなの裏で男とやりまくってるに
決まってるじゃん(w」とか言ってバカにしてるレベルだよな
文句を言ってもせん無いこと (スコア:0)
##へいへいごくろうなこって、と思う位です。
##ボランティアの代償は自己満足ということで見過ごすのが吉かと。
何故Googleに焦点が? (スコア:1)
スパム業者も別にGoogle使ってアドレス集めてる訳でもあるまい。
問題はスパム業者の使っているクローラの性能だろ・・・
アドレスをクロールして集めるとして、
スパム業者もよく使われる改変くらいは突破して集めているんじゃないですかね。
Re:何故Googleに焦点が? (スコア:1, 興味深い)
>何故Googleに焦点が?
とりあえずの例としてGoogleが実際に行っているからでは?
spam業者とGoogleでは規模が違う訳でして。
で、これはGoogleがどういう意図でやっているかってのが意外とGoogleという会社を判断するには参考に成るかもね。
隠匿されれたメールアドレスと認識してやって居るのであれば、それはもう、自己利益の為には他人の迷惑は考えないって事だし、
何等かの対処なり(最低限でテキトーなプレスリリースで注意を促すとか)がされるなら、一応外部と折り合いを付けようって意思
が有るとも見れますし。
Re: (スコア:0)
隠匿はしていないかも知れないが、これはGoogle自体も思ってなかったのでは無いかな。
動的に生成されたページへのクロール効率を上げようとして引っかかっただけでしょう。
技術的に認識出来る要になれば外す様になると思う。
#不特定多数からの連絡窓口の通知ってのはどうやっても知らない人間が見付けられるのが前提だしなあ。
Re: (スコア:0)
メールアドレスを晒す理由って何?
連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?
Re:隠匿してない (スコア:3, 興味深い)
> 連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?
いかがわしい携帯サイトの運営に関わったことがありますが、
特商法の関係上、嫌でも連絡先窓口をサイトで晒す必要があります。
法的に電話番号の記載が必須なのですが、
面倒なのでなるべくなら電話ではなくメールで問い合わせをして欲しいわけです。
ただ、検索なんてされたくないですし、
できれば問い合わせそのものをあきらめて泣き寝入りしてほしいのが本音です。
訴えられないように最低限の情報は載せる必要がありますし、
また業者との取引(広告掲載やクレジットカード加盟店契約)で審査されることもあるので、
メールフォームはおろか tel: や mailto: のリンクも無しに、
画像で連絡先を掲載していました。
携帯サイトですので、一旦、紙などに書き写してから、手入力しなければ、
電話にしてもメールにしても連絡できないわけです。
メールアドレスには「0(ゼロ)」と「O(オー)」、「1(イチ)」と「l(エル)」を
混在させ、不必要に長いものにして連絡する気を無くさせます。
Re: (スコア:0)
正確にはアドレスは固定で非公開にして、動的に変更したエイリアスを公開するって感じで。
エイリアスは定期的に変更。内容はランダム。最新と一つ前くらいを有効にして古いものは破棄。
エイリアスを英数字記号混合のランダムで長いものにしたら、メモする気力すらなくなるかもよ。
#積極的に受けたいなら同じやり方でmailtoも使えばOK
#送信側は毎回相手先が変わるからアドレス帳が使えなくて面倒だろうが
Re:隠匿してない (スコア:1)
>メールアドレスを晒す理由って何?
>連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?
フォーム作る手間が大変だからじゃないですか。
連絡取って貰いたい人は、メールアドレス書くだけで、連絡を取りたい側は
連絡を取るためのツール(メーラー)を自前で揃えて連絡してくれるわけで。
仕組みとしては、シンプルで綺麗だと思います。
(性善説が通る世界ではね)
この件、どうしてもGoogleのせいにしたいなら
Gmailを連絡窓口にすればいいんじゃないかと思った。
Gmailに匿名URLでフォームを作る機能があれば 便利 (スコア:1)
Gmailにメール受付フォームを作る機能があれば便利だと思いました。
いわゆる「プライベートURL」で見えるページで。
もしスパムがたくさん来るようになったらその「プライベートURL」
を生成しなおせばいいだけだし。
有料サービスではフォームを複数作ることができるってことにすれば
収益にも貢献するんじゃないかなぁ。
#もしかして Gmail Labs に既にあったりして。
屍体メモ [windy.cx]
Re: (スコア:0)
Re:隠匿してない (スコア:1, おもしろおかしい)
>メールアドレスを晒す理由って何?
spam収集用とか……
Re: (スコア:0)
静的HTMLは置かせてくれるけどcgiやcgiからのメールはペケってサイトしか借りてない人も居るのをお忘れなく。
Re: (スコア:0)
お忘れなくって、そんなところ借りてるのが悪いのでは?
選択肢はいくらでもあるのだから引っ越せばいい。
Re: (スコア:0)
その通り。
もちろん、画像化したメールアドレスを読み取って勝手に公開しても、
それは人が読めるような形でメアドを公開している方が悪いわけで。
画像化したメールアドレスを収集 (スコア:0)
http://images.google.co.jp/images?gbv=2&hl=ja&newwindow=1&... [google.co.jp]
結構いい確率で引っか