空ディレクトリを除くフォルダツリーのコピー | route127の日記

route127の日記：空ディレクトリを除くフォルダツリーのコピー 6

日記 by route127 2019年04月03日 23時42分

年度が改まって、複数の自治体HPから一揃いずつPDF書類をダウンロードしてくる必要があったが、ダウンロードページから右クリック保存を繰り返すのも面倒で、wgetを利用して再帰ダウンロードをかけていた。
コマンドの投入としてはこんな感じ。

wget URL -r -l1 -Apdf

とりあえず必要な書類は集まったのだが、ページの構成によってはメニューからあさっての方向へリンクを辿って行ってしまう。
ただ再帰のレベル設定とファイル種別をPDFのみとすることで余計なファイルの保存が抑制されてはいる。
リモートのディレクトリ構造は保持したかったので-ndオプションは利用せず、また動作後に空のディレクトリの削除まではしてくれないのでどうしたものかと考えていた。

自前でスクリプトを書いてディレクトリ削除しようかと思ったが自治体ドメインごとに異なるディレクトリ構造について間違いなく動作するスクリプトを書くのも手間がかかるなと思い尻込みしていた。
xcopyコマンドにそんなオプションがないかと見ていたら、ヘルプメッセージにxcopyは非推奨だからrobocopyを使えとの指示があった。
いつの間にそんな前頭葉切除みたいなコマンドが出来ていたのか。
robocopyの/Sスイッチで空ディレクトリはコピーしないことを選択できるので、ディレクトリツリーをこのコマンドでコピーすればコピー先には空ディレクトリのないツリーが複製されるという寸法のようだ。

ところでwgetの動作を見ていて、同一ドメインで複数ファイルをダウンロードする時にはコネクションを再利用する旨メッセージを出していた。
ちょくちょく使ってはいたがそんな賢い動作をするようになってたんだ。
2013年にHTTP/1.0でもコネクションを再利用しにいくというバグ報告がされてるのでだいぶ前からか。
今後HTTP/2.0にも対応していくんだろうか。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索6コメント Log In/Create an Account

Robust File Copy (スコア:1)

by minet (45149) on 2019年04月04日 8時45分 (#3593117) 日記

確か最初はWindows Server 2003向けのリソースキットとして別途配布されてたんですよね。
サーバーOS限定ではなかったからXPにもインストールすれば使えた。
標準搭載されるようになったのはVistaからかな？いつの間にかクライアントOSでも普通に使えるようになってて驚いた記憶が。
- Re:Robust File Copy (スコア:1)
  
  by taka2 (14791) on 2019年04月04日 15時48分 (#3593426) ホームページ日記
  
  VPN経由での(通信路に信頼性がない)遠隔地へのファイルバックアップに愛用してます。
  コピー中はタイムスタンプが1980年になっていて、コピー完了後にタイムスタンプをコピー元に合わせるという挙動なので、
  ファイルのコピー途中で強制中断してしまった場合には1980年のファイルが残るから
  リトライした時に、「コピー先が古いので上書き更新」してくれるのが便利。
  xcopy だと、コピー中は現在のタイムスタンプになるので安心できない。
  #robust file copy の略で、robocopyの真ん中のoはどこから来たのかが一番の疑問。
  
  シェア
  
  親コメント
  - Re:Robust File Copy (スコア:1)
    
    by route127 (38618) on 2019年04月04日 23時50分 (#3593684) 日記
    
    ＞真ん中のoはどこから来たのか
    色々考えてたんですが、robucopyだと強勢が連続して言いづらいから、robustのuがcopyのoに負けてoになったような気がします。
    ロシア語のхорошоがハラショーになるみたいな…違うか？
    実際のところ英語のストレスルールにはゲルマンとロマンスの2種類あってロマンスストレスルール [keio.ac.jp](RSR)は強勢が右寄りになるようです。
    このルールに則って強勢が右にずれ込むと弱化したuではあいまい母音を担えず、綴字もoに変化した…と考えて他の複合語にも似た例がないかと探してみましたが見付けられなかった。
    
    シェア
    
    親コメント
- Re:Robust File Copy (スコア:1)
  
  by route127 (38618) on 2019年04月04日 23時41分 (#3593680) 日記
  
  サポート終了OSを使ってる後ろめたさから言いませんでしたがVistaです。
  それにしても10年以上前からのコマンドだったのか。
  robot copyかと思ってたらrobustなんだな。
  
  シェア
  
  親コメント
前頭葉切除とは新しい (スコア:0)

by Anonymous Coward on 2019年04月04日 6時01分 (#3593073)

それlobocopy。（コピーしてるのに切除かよ
route127らしくない (スコア:0)

by Anonymous Coward on 2019年04月04日 11時32分 (#3593210)

ExcelファイルいじるにもマクロスルーでわざわざPerl使う人がどうした？
そこはWWW::Curl::Multiじゃねーの？
てか最新版の1.20.2でもHTTP/2未対応な時点で、curl派とwget派の戦いはとっくに決着ついてると思ってたは

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

route127の日記：空ディレクトリを除くフォルダツリーのコピー 6

空ディスクを除くフォルダツリーのコピー More ログイン

Robust File Copy (スコア:1)

Re:Robust File Copy (スコア:1)

Re:Robust File Copy (スコア:1)

Re:Robust File Copy (スコア:1)

前頭葉切除とは新しい (スコア:0)

route127らしくない (スコア:0)

スラド