アカウント名:
パスワード:
ArchiveTeamのIRCに潜っています。srad.jpに関しては既にクロールが始まっています。http://archivebot.com/ [archivebot.com]で進捗を確認できるかとコメントはhttps://srad.jp/comment/* のURLから保存できるかもです。それよりやばいのがOSDNですね。プロジェクトが5万以上あってやばそうな感じです。
各自が? クローラー走らせてるのかサイトが重くなってきましたね。
スラッシュドット効果ですね
ここにぶら下げますかOSDNについて、各種WebページはArchiveTeam ArchiveBotが、git/hg repoはhttps://www.softwareheritage.org/がクロールを開始してます。ただArchiveBotはタイムアウトに苦しめられているっぽいです。あとは、cvs/svn repoの取得に難儀しているようです。サイト全体でのレポジトリのリストが必要みたいです。どなたかアイデアありましたらお願いします。
てかOSDNってサーバー分散してるんだから、ミラーサーバーから均等にファイル拾ってくればいいんじゃないの?それでもダメ?
あと追記で、ミラーサーバーをホスティングしてる会社や大学や研究機関の人に直接連絡取って、全ファイルをコピーさせてもらえないか聞いてみるってのはどう?OSDNとサーバーの契約とかあってできないとか?もう契約なんか実質無効になってそうだけど。
コメントは1から460万くらいまで回すんでしょうかねリンクをたどる方式だとかなり取りこぼすと思う
こっちにも書いとく。https://srad.jp/sitemap-index.xml [srad.jp]このサイトマップ、ストーリーのURLがサブドメインの場合は転送ができてないから404だらけになってる。開設2001年4月以降のストーリーはhttps://srad.jp/story/YY/MM/DD/ [srad.jp]の形式でリンク辿っていかないと無理っぽい。例:https://srad.jp/story/01/04/
とりあえず、phason氏の日記は保存し終えた
/-phason/journals/〜を数えたら400件あったけど、internet Archiveにslashdot.jp時代を含めて244件(エラーあればそれも含む)しか保存されてないわ。暇があれば保存しないと
全部保存やっといた。数日以内にはここから一覧で見れるはず。https://web.archive.org/*/https://srad.jp/phason/journals/* [archive.org]
s不要で~が抜けてた。こっちから。https://web.archive.org/*/http://srad.jp/~phason/journal/* [archive.org]
手伝ってもいい?
見てきたけど、コメント番号4597260より後に書かれたコメントってクロールしないの?
追加でやってくれてるようだけど、500エラーだらけになってるな。エラー出てるのだけやり直し必要かも。例:https://web.archive.org/web/20240125095531/https://srad.jp/comment/4598325 [archive.org]
ありがとうございます.
残念ながら,50コメントを超えた分を読み込ませてからの保存,はできない,ですよね…
ArchiveTeamに出してくれた人まだ見てる?もし見てるなら、タレコミはまだ増えるだろうけど、タレコミと日記のURL、この数字で全部依頼出してくれませんか。お願いします。https://srad.jp/submission/[1-107368]/https://srad.jp/journal/[1-665321]/
別だけど一応保存終わってるはず
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ハッカーとクラッカーの違い。大してないと思います -- あるアレゲ
とりあえず (スコア:4, 興味深い)
ArchiveTeamのIRCに潜っています。
srad.jpに関しては既にクロールが始まっています。
http://archivebot.com/ [archivebot.com]
で進捗を確認できるかと
コメントはhttps://srad.jp/comment/* のURLから保存できるかもです。
それよりやばいのがOSDNですね。プロジェクトが5万以上あってやばそうな感じです。
Re:とりあえず (スコア:1)
と
https://srad.jp/submission/* (タレコミ)
もお願いします。
Re: (スコア:0)
https://srad.jp/~ユーザー名/journal/*/
のようですが、ユーザー名の部分はなくてもアクセスできるようなので、クローラーを回すなら
https://srad.jp/journal/*
のほうが簡単だと思いました。
Re:とりあえず (スコア:1)
各自が? クローラー走らせてるのかサイトが重くなってきましたね。
Re:とりあえず (スコア:1)
スラッシュドット効果ですね
Re: (スコア:0)
ここにぶら下げますか
OSDNについて、
各種WebページはArchiveTeam ArchiveBotが、git/hg repoはhttps://www.softwareheritage.org/がクロールを開始してます。
ただArchiveBotはタイムアウトに苦しめられているっぽいです。
あとは、cvs/svn repoの取得に難儀しているようです。サイト全体でのレポジトリのリストが必要みたいです。
どなたかアイデアありましたらお願いします。
Re: (スコア:0)
てかOSDNってサーバー分散してるんだから、ミラーサーバーから均等にファイル拾ってくればいいんじゃないの?
それでもダメ?
Re: (スコア:0)
あと追記で、ミラーサーバーをホスティングしてる会社や大学や研究機関の人に直接連絡取って、全ファイルをコピーさせてもらえないか聞いてみるってのはどう?
OSDNとサーバーの契約とかあってできないとか?
もう契約なんか実質無効になってそうだけど。
Re: (スコア:0)
コメントは1から460万くらいまで回すんでしょうかね
リンクをたどる方式だとかなり取りこぼすと思う
Re: (スコア:0)
こっちにも書いとく。
https://srad.jp/sitemap-index.xml [srad.jp]
このサイトマップ、ストーリーのURLがサブドメインの場合は転送ができてないから404だらけになってる。
開設2001年4月以降のストーリーは
https://srad.jp/story/YY/MM/DD/ [srad.jp]
の形式でリンク辿っていかないと無理っぽい。
例:https://srad.jp/story/01/04/
Re: (スコア:0)
とりあえず、phason氏の日記は保存し終えた
Re: (スコア:0)
/-phason/journals/〜を数えたら400件あったけど、internet Archiveにslashdot.jp時代を含めて244件(エラーあればそれも含む)しか保存されてないわ。
暇があれば保存しないと
Re: (スコア:0)
全部保存やっといた。
数日以内にはここから一覧で見れるはず。
https://web.archive.org/*/https://srad.jp/phason/journals/* [archive.org]
Re: (スコア:0)
s不要で~が抜けてた。こっちから。
https://web.archive.org/*/http://srad.jp/~phason/journal/* [archive.org]
Re: (スコア:0)
手伝ってもいい?
Re: (スコア:0)
見てきたけど、コメント番号4597260より後に書かれたコメントってクロールしないの?
Re: (スコア:0)
追加でやってくれてるようだけど、500エラーだらけになってるな。エラー出てるのだけやり直し必要かも。
例:
https://web.archive.org/web/20240125095531/https://srad.jp/comment/4598325 [archive.org]
Re: (スコア:0)
ありがとうございます.
残念ながら,50コメントを超えた分を読み込ませてからの保存,はできない,ですよね…
Re: (スコア:0)
ArchiveTeamに出してくれた人まだ見てる?
もし見てるなら、タレコミはまだ増えるだろうけど、タレコミと日記のURL、
この数字で全部依頼出してくれませんか。お願いします。
https://srad.jp/submission/[1-107368]/
https://srad.jp/journal/[1-665321]/
Re: (スコア:0)
別だけど一応保存終わってるはず