Re:日記の dump 方法 (#4598350) | スラド終了のお知らせ

「スラド終了のお知らせ」記事へのコメント

記事ページを表示 500コメントを取得

検索630コメント Log In/Create an Account

日記の dump 方法 (スコア:0)

by Anonymous Coward

あるなら、教えてください！ m(_ _)m
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ひたすら開いていっておそらく最初の日記までたどりついて
  「名前をつけて保存」したら
  書いた内容をふくむhtmlはできたけどcssが足りなくて真っ白
  - Re: (スコア:1)
    
    by headless (41064)
    
    mhtmlで保存すれば読める状態になるはず
    - Re: (スコア:1)
      
      by KAMUI (3084)
      
      20年分とかそれでやれるんか・・・？
      
      と言うか、今それで試したら2021年7月27日より前は表示されなかったし。
      - Re: (スコア:1)
        
        by taka2 (14791)
        
        たぶん件数依存かな？昔、sradリーダーを作ろうかと思い立ってajax.plの挙動を試行錯誤したときの記憶では、一画面への表示では、200件ぐらいまでしか遡れませんでした。それ以上のパラメーターを指定しても、200件しか返ってこない。
        そこから先ですが、画面下端のフッター？の、左から3番目
        （「続きを表示」「今日」の右、KAMUIさんの初期表示なら「10月5日」で、続きを表示一回で「8月 2023」になるとこ）が、ページングになってるので、
        ここをクリックして画面更新しては保存、を繰り返せば
        どんどん遡れるはずです。
        ちょっと試した限りでは、続きを読むで表示件数を増
        
        Re:日記の dump 方法 (スコア:1)
        
        by akiraani (24305) on 2024年01月24日 9時17分 (#4598350) 日記
        
        どこに投稿しようかと思ったんですが、ここにつなげます。
        自分の日記をダウンロードしたやり方です。
        使用したツールはPowerShell、Excel、秀丸の3つです。Excelと秀丸は類似のツールで代用がききます。
        自分の日記のだけ抽出する方法ですが、日記の検索を使いました。
        ユーザーページの日記の検索からキーワードを入力しないで検索すると、自分の日記が全て表示されます(10件ずつ)
        自分の場合、URLは以下になります。
        1ページ目
        https://srad.jp/search.pl?op=journals&uid=24305&query= [srad.jp]
        2ページ目
        https://srad.jp/search.pl?threshold=0&op=journals&sort=1&u... [srad.jp]
        ※uidのところを自分のidに変えれば、上のURLはそのまま使えます。
        以下、次のページをクリックする毎にstart=10の数字部分が10ずつ増えていきます。
        まず、この数字を手動推定で増やして、一番最初のエントリを探します。(ちなみに4730でした)
        あとは、10ずつ増やしたURLをExcelで生成して、PowerShellの Invoke-WebRequestコマンドで全てダウンロードします。
        ちなみに、Invoke-WebRequestコマンド場合、以下の書式でダウンロードが出来ます。
        Invoke-WebRequest -Uri [ダウンロードしたいURL] -OutFile [ローカルのファイル名]
        ダウンロードしたhtmlファイルのどれか一つを秀丸で開き、複数ファイルの串刺しGrepで「https://srad.jp/~akiraani/journal/」を検索してやれば、自分の日記URLを含む検索結果が得られます。
        この結果を細工すれば、自分の日記のURLを抽出することができます。
        あとは、抽出したURLをPowerShellの Invoke-WebRequestコマンドでダウンロードするだけです。
        ＃PowerShellの Invoke-WebRequestでのダウンロードだと、mhtml保存が出来ないので#4597227 [srad.jp]の画面真っ白問題が解決できない。なにか良い方法ないですかね。
        
        --
        しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
        
        シェア
        
        親コメント
        
        Re:日記の dump 方法 (スコア:2)
        
        by kazekiri (5) on 2024年01月27日 13時14分 (#4599955) ホームページ日記
        
        https://srad.jp/search.pl?threshold=0&op=journals&sort=1&u... [srad.jp]
        こんな感じで「&content_type=rss」を付け足すとrssで出力できます。
        
        シェア
        
        親コメント
        
        Re:日記の dump 方法 (スコア:1)
        
        by colorless (35494) on 2024年01月24日 13時56分 (#4598491) 日記
        
        ありがとうございます！
        
        過去の恥ずかしい日記まで全部眺めることが出来ました。
        
        # ダウンロードしておくほどの物ではないけれど、
        # 無くなるとなると急にもったいなくなる貧乏性
        
        --
        答えはある。それを見つける能力が無いだけだ。
        
        シェア
        
        親コメント
        
        Re:日記の dump 方法 (スコア:1)
        
        by sumiyaki (39613) on 2024年01月24日 17時51分 (#4598636) ホームページ日記
        
        >＃PowerShellの Invoke-WebRequestでのダウンロードだと、mhtml保存が出来ないので#4597227の画面真っ白問題が解決できない。なにか良い方法ないですかね。
        私はakiraaiさんの方法を参考にして、個々の日記のURLのリストを作り、それを元にwgetを使い、なんとかうまく行きました。Linux(Ubuntu)を使ってますが。
        https://stackoverflow.com/questions/42966245/how-to-download-a-webpage... [stackoverflow.com]
        にあるオプションつけて。
        wget --convert-links --adjust-extension --page-requisites --no-parent
        
        シェア
        
        親コメント
        
        Re:日記の dump 方法 (スコア:1)
        
        by witch (3127) on 2024年01月27日 16時56分 (#4600002) 日記
        
        日記のdump方法の情報ありがとうございます。
        kazekiriさんのRSS取得のコメント [srad.jp]と合わせて、bashスクリプトで日記本文が入ったRSSを取得中です。
        w3m -dump_source 'https://srad. jp/search.pl?op=journals&threshold=0&sort=-1&content_type=rss&uid=${USERID}&start=${NUM}'
        1回のリクエストで15件とれるので、NUMを15ずつ増やしてループさせてます。ただし日記へのコメントの有無が入りません。
        今、10秒間隔で回しているところです。
        RSSの取得が終わったら、個々の日記エントリのURLにアクセスして、コメントも取得しようと思っています。
        w3mを使っているのは、ログイン状態のほうがアクセス制限かからないかなと思って。
        （一度手作業でw3mでログインしてcookie取得した後でスクリプト実行）
        
        シェア
        
        親コメント
        
        Re:日記の dump 方法 (スコア:1)
        
        by Bill Hates (2038) on 2024年01月27日 22時38分 (#4600060) 日記
        
        ありがとうございます。普通に読み込むとすぐに止まってしまって困っていたのですが、20年分くらいは保存できました。ただその先にまだ2年近く残っていたように思うのですがトラブルか何かで失われたのかそこまでしか読めない仕様なのか謎が残ります。
        
        シェア
        
        親コメント
        
        Re:日記の dump 方法 (スコア:1)
        
        by akiraani (24305) on 2024年01月25日 11時52分 (#4598920) 日記
        
        Windows版のwget [sourceforge.net]導入してやってみました。
        バージョンの違いか--adjust-extension は使えなかったんですが、-p -k -E --no-check-certificate でなんとか読める(ただしレイアウトはボロボロ)形でエクスポート出来ました。
        
        --
        しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
        
        シェア
        
        親コメント
        
        Re:日記の dump 方法 (スコア:1)
        
        by jerry_fish (32739) on 2024年01月31日 5時37分 (#4601404) 日記
        
        同じくwindows用のwgetで自分の日記はダウンロードできました。
        使えなかったオプションのコメントを見落とし、なんでーと思ったりヘルプを見たり、無駄が多いと言うか、相変わらずダメダメっぷりを発揮して、なんだかなーという気持ちになりましたが。
        rss取得方法は#4599955のkazekiriさんコメントを参考にしました。
        どうしたらいいんだろう？って思っていたので、このツリーの他コメントも参考になってます。
        ありがとうございました。
        
        --
        ☆大きい羊は美しい☆
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

スラド終了のお知らせ More ログイン

「スラド終了のお知らせ」記事へのコメント

日記の dump 方法 (スコア:0)

Re: (スコア:0)

Re: (スコア:1)

Re: (スコア:1)

Re: (スコア:1)

Re:日記の dump 方法 (スコア:1)

Re:日記の dump 方法 (スコア:2)

Re:日記の dump 方法 (スコア:1)

Re:日記の dump 方法 (スコア:1)

Re:日記の dump 方法 (スコア:1)

Re:日記の dump 方法 (スコア:1)

Re:日記の dump 方法 (スコア:1)

Re:日記の dump 方法 (スコア:1)