k3c (4386) の日記
2002 年 08 月 13 日
午前 12:43
アンテナ
自分専用アンテナの仕様を考えている。
ページは常にGETで引っ張ってきて(力技)、更新があるかどうかはMD5で評価する。対象とするWebページによってフォーマットが違うので、検出用のURIから拾ってきたドキュメント(あるいはファイルハンドルのグロブ?)をプラグインに流し込んで、検出に必要な部分だけを返してもらう。そうすれば広告とか余計なパートは除外して、常に監視したい部分のダイジェストだけを評価できるし、プラグインも与えられたものから決まった部分を返すだけなのでそんなに複雑なものにはならないはず。
設定として必要なのは、検出に使うURIとリンクするURI、リンクする文字列とプラグインとその名前。くらいか。いっそのこと設定ファイルを出力ファイルにしたっていい。追加すべき項目は最終更新日とMD5の値ぐらいのものだし。
なんでこんなことを考えているかというと、例えばWDBなんかはGETとHEADが使えるのだがRSSは処理できない(仕様上アタリマエ)ので、slashdot.rdfのLast-Modified:みたいに30分ごとに(内容に実質変化無くても)変わってしまうものに対しては監視にならないのだ。あとCGIとかも…。
というわけで、そんなに難しくないはずなので、暇があったら作ってみよう。
この議論は賞味期限が切れたので、アーカイブ化されています。
新たにコメントを付けることはできません。