アカウント名:
パスワード:
あるなら、教えてください! m(_ _)m
ひたすら開いていっておそらく最初の日記までたどりついて「名前をつけて保存」したら書いた内容をふくむhtmlはできたけどcssが足りなくて真っ白
たぶん件数依存かな?昔、sradリーダーを作ろうかと思い立ってajax.plの挙動を試行錯誤したときの記憶では、一画面への表示では、200件ぐらいまでしか遡れませんでした。それ以上のパラメーターを指定しても、200件しか返ってこない。
そこから先ですが、画面下端のフッター?の、左から3番目(「続きを表示」「今日」の右、KAMUIさんの初期表示なら「10月5日」で、続きを表示一回で「8月 2023」になるとこ)が、ページングになってるので、ここをクリックして画面更新しては保存、を繰り返せばどんどん遡れるはずです。
ちょっと試した限りでは、続きを読むで表示件数を増
どこに投稿しようかと思ったんですが、ここにつなげます。自分の日記をダウンロードしたやり方です。
使用したツールはPowerShell、Excel、秀丸の3つです。Excelと秀丸は類似のツールで代用がききます。
自分の日記のだけ抽出する方法ですが、日記の検索を使いました。ユーザーページの日記の検索からキーワードを入力しないで検索すると、自分の日記が全て表示されます(10件ずつ)
自分の場合、URLは以下になります。1ページ目https://srad.jp/search.pl?op=journals&uid=24305&query= [srad.jp]2ページ目https://srad.jp/search.pl?threshold=0&op=journals&sort=1&u... [srad.jp]
※uidのところを自分のidに変えれば、上のURLはそのまま使えます。
以下、次のページをクリックする毎にstart=10の数字部分が10ずつ増えていきます。まず、この数字を手動推定で増やして、一番最初のエントリを探します。(ちなみに4730でした)あとは、10ずつ増やしたURLをExcelで生成して、PowerShellの Invoke-WebRequestコマンドで全てダウンロードします。
ちなみに、Invoke-WebRequestコマンド場合、以下の書式でダウンロードが出来ます。
Invoke-WebRequest -Uri [ダウンロードしたいURL] -OutFile [ローカルのファイル名]
ダウンロードしたhtmlファイルのどれか一つを秀丸で開き、複数ファイルの串刺しGrepで「https://srad.jp/~akiraani/journal/」を検索してやれば、自分の日記URLを含む検索結果が得られます。
この結果を細工すれば、自分の日記のURLを抽出することができます。あとは、抽出したURLをPowerShellの Invoke-WebRequestコマンドでダウンロードするだけです。
#PowerShellの Invoke-WebRequestでのダウンロードだと、mhtml保存が出来ないので#4597227 [srad.jp]の画面真っ白問題が解決できない。なにか良い方法ないですかね。
https://srad.jp/search.pl?threshold=0&op=journals&sort=1&u... [srad.jp]
こんな感じで「&content_type=rss」を付け足すとrssで出力できます。
>#PowerShellの Invoke-WebRequestでのダウンロードだと、mhtml保存が出来ないので#4597227の画面真っ白問題が解決できない。なにか良い方法ないですかね。
私はakiraaiさんの方法を参考にして、個々の日記のURLのリストを作り、それを元にwgetを使い、なんとかうまく行きました。Linux(Ubuntu)を使ってますが。https://stackoverflow.com/questions/42966245/how-to-download-a-webpage... [stackoverflow.com]にあるオプションつけて。wget --convert-links --adjust-extension --page-requisites --no-parent
日記のdump方法の情報ありがとうございます。kazekiriさんのRSS取得のコメント [srad.jp]と合わせて、bashスクリプトで日記本文が入ったRSSを取得中です。
w3m -dump_source 'https://srad. jp/search.pl?op=journals&threshold=0&sort=-1&content_type=rss&uid=${USERID}&start=${NUM}'
1回のリクエストで15件とれるので、NUMを15ずつ増やしてループさせてます。ただし日記へのコメントの有無が入りません。今、10秒間隔で回しているところです。RSSの取得が終わったら、個々の日記エントリのURLにアクセスして、コメントも取得しようと思っています。
w3mを使っているのは、ログイン状態のほうがアクセス制限かからないかなと思って。(一度手作業でw3mでログインしてcookie取得した後でスクリプト実行)
ありがとうございます。普通に読み込むとすぐに止まってしまって困っていたのですが、20年分くらいは保存できました。ただその先にまだ2年近く残っていたように思うのですがトラブルか何かで失われたのかそこまでしか読めない仕様なのか謎が残ります。
Windows版のwget [sourceforge.net]導入してやってみました。バージョンの違いか--adjust-extension は使えなかったんですが、-p -k -E --no-check-certificate でなんとか読める(ただしレイアウトはボロボロ)形でエクスポート出来ました。
同じくwindows用のwgetで自分の日記はダウンロードできました。使えなかったオプションのコメントを見落とし、なんでーと思ったりヘルプを見たり、無駄が多いと言うか、相変わらずダメダメっぷりを発揮して、なんだかなーという気持ちになりましたが。
rss取得方法は#4599955のkazekiriさんコメントを参考にしました。どうしたらいいんだろう?って思っていたので、このツリーの他コメントも参考になってます。ありがとうございました。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア
日記の dump 方法 (スコア:0)
あるなら、教えてください! m(_ _)m
Re: (スコア:0)
ひたすら開いていっておそらく最初の日記までたどりついて
「名前をつけて保存」したら
書いた内容をふくむhtmlはできたけどcssが足りなくて真っ白
Re: (スコア:1)
Re: (スコア:1)
と言うか、今それで試したら2021年7月27日より前は表示されなかったし。
Re: (スコア:1)
たぶん件数依存かな?昔、sradリーダーを作ろうかと思い立ってajax.plの挙動を試行錯誤したときの記憶では、一画面への表示では、200件ぐらいまでしか遡れませんでした。それ以上のパラメーターを指定しても、200件しか返ってこない。
そこから先ですが、画面下端のフッター?の、左から3番目
(「続きを表示」「今日」の右、KAMUIさんの初期表示なら「10月5日」で、続きを表示一回で「8月 2023」になるとこ)が、ページングになってるので、
ここをクリックして画面更新しては保存、を繰り返せば
どんどん遡れるはずです。
ちょっと試した限りでは、続きを読むで表示件数を増
Re:日記の dump 方法 (スコア:1)
どこに投稿しようかと思ったんですが、ここにつなげます。
自分の日記をダウンロードしたやり方です。
使用したツールはPowerShell、Excel、秀丸の3つです。Excelと秀丸は類似のツールで代用がききます。
自分の日記のだけ抽出する方法ですが、日記の検索を使いました。
ユーザーページの日記の検索からキーワードを入力しないで検索すると、自分の日記が全て表示されます(10件ずつ)
自分の場合、URLは以下になります。
1ページ目
https://srad.jp/search.pl?op=journals&uid=24305&query= [srad.jp]
2ページ目
https://srad.jp/search.pl?threshold=0&op=journals&sort=1&u... [srad.jp]
※uidのところを自分のidに変えれば、上のURLはそのまま使えます。
以下、次のページをクリックする毎にstart=10の数字部分が10ずつ増えていきます。
まず、この数字を手動推定で増やして、一番最初のエントリを探します。(ちなみに4730でした)
あとは、10ずつ増やしたURLをExcelで生成して、PowerShellの Invoke-WebRequestコマンドで全てダウンロードします。
ちなみに、Invoke-WebRequestコマンド場合、以下の書式でダウンロードが出来ます。
Invoke-WebRequest -Uri [ダウンロードしたいURL] -OutFile [ローカルのファイル名]
ダウンロードしたhtmlファイルのどれか一つを秀丸で開き、複数ファイルの串刺しGrepで「https://srad.jp/~akiraani/journal/」を検索してやれば、自分の日記URLを含む検索結果が得られます。
この結果を細工すれば、自分の日記のURLを抽出することができます。
あとは、抽出したURLをPowerShellの Invoke-WebRequestコマンドでダウンロードするだけです。
#PowerShellの Invoke-WebRequestでのダウンロードだと、mhtml保存が出来ないので#4597227 [srad.jp]の画面真っ白問題が解決できない。なにか良い方法ないですかね。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:日記の dump 方法 (スコア:2)
https://srad.jp/search.pl?threshold=0&op=journals&sort=1&u... [srad.jp]
こんな感じで「&content_type=rss」を付け足すとrssで出力できます。
Re:日記の dump 方法 (スコア:1)
過去の恥ずかしい日記まで全部眺めることが出来ました。
# ダウンロードしておくほどの物ではないけれど、
# 無くなるとなると急にもったいなくなる貧乏性
答えはある。それを見つける能力が無いだけだ。
Re:日記の dump 方法 (スコア:1)
>#PowerShellの Invoke-WebRequestでのダウンロードだと、mhtml保存が出来ないので#4597227の画面真っ白問題が解決できない。なにか良い方法ないですかね。
私はakiraaiさんの方法を参考にして、個々の日記のURLのリストを作り、それを元にwgetを使い、なんとかうまく行きました。Linux(Ubuntu)を使ってますが。
https://stackoverflow.com/questions/42966245/how-to-download-a-webpage... [stackoverflow.com]
にあるオプションつけて。
wget --convert-links --adjust-extension --page-requisites --no-parent
Re:日記の dump 方法 (スコア:1)
日記のdump方法の情報ありがとうございます。
kazekiriさんのRSS取得のコメント [srad.jp]と合わせて、bashスクリプトで日記本文が入ったRSSを取得中です。
w3m -dump_source 'https://srad. jp/search.pl?op=journals&threshold=0&sort=-1&content_type=rss&uid=${USERID}&start=${NUM}'
1回のリクエストで15件とれるので、NUMを15ずつ増やしてループさせてます。ただし日記へのコメントの有無が入りません。
今、10秒間隔で回しているところです。
RSSの取得が終わったら、個々の日記エントリのURLにアクセスして、コメントも取得しようと思っています。
w3mを使っているのは、ログイン状態のほうがアクセス制限かからないかなと思って。
(一度手作業でw3mでログインしてcookie取得した後でスクリプト実行)
Re:日記の dump 方法 (スコア:1)
ありがとうございます。普通に読み込むとすぐに止まってしまって困っていたのですが、20年分くらいは保存できました。ただその先にまだ2年近く残っていたように思うのですがトラブルか何かで失われたのかそこまでしか読めない仕様なのか謎が残ります。
Re:日記の dump 方法 (スコア:1)
Windows版のwget [sourceforge.net]導入してやってみました。
バージョンの違いか--adjust-extension は使えなかったんですが、-p -k -E --no-check-certificate でなんとか読める(ただしレイアウトはボロボロ)形でエクスポート出来ました。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:日記の dump 方法 (スコア:1)
同じくwindows用のwgetで自分の日記はダウンロードできました。
使えなかったオプションのコメントを見落とし、なんでーと思ったりヘルプを見たり、無駄が多いと言うか、相変わらずダメダメっぷりを発揮して、なんだかなーという気持ちになりましたが。
rss取得方法は#4599955のkazekiriさんコメントを参考にしました。
どうしたらいいんだろう?って思っていたので、このツリーの他コメントも参考になってます。
ありがとうございました。
☆大きい羊は美しい☆