を使用してウェブページ上のすべてのドキュメントを削り取るにはどうすればいいですか。これは研究目的で行っていることです。wget
私は、このリンクからすべてのファイルをこすりしようとしている
wgetのは、DT =のような外部コマンドとして、このURLの文字を認識します。すべてのファイルがリンクの背後に隠れています。すべてのファイルをフォルダにスクラップするには、どのようなコマンドをwgetで使用できますか?
を使用してウェブページ上のすべてのドキュメントを削り取るにはどうすればいいですか。これは研究目的で行っていることです。wget
私は、このリンクからすべてのファイルをこすりしようとしている
wgetのは、DT =のような外部コマンドとして、このURLの文字を認識します。すべてのファイルがリンクの背後に隠れています。すべてのファイルをフォルダにスクラップするには、どのようなコマンドをwgetで使用できますか?
再帰的にダウンロードするwgetを取得するには、-r
オプションがあります。これは非常に多くの時間を費やすことができますので、気になるリンクが1レベル下にあることがわかっている場合は、特定の深さに移動したい場合は-l 1
または別の整数を使用できます。
wget per-seとは関係ありませんが、URLの文字をエスケープしていない可能性があります。シェルはそれらを解釈しています。 \
(バックスラッシュ)の特殊文字を前に置く必要があります。だからあなたのURLがある場合:ほとんどのシェルで
http://www.somewhere.com/file.php?p1=v1&p2=v2
あなたは次のようにコマンドを入力する必要があります:
wget -r -l 1 http://www.somewhere.com/file.php\?p1=v1\&p2=v2
エスケープする必要がある正確な文字は、シェルに依存しますが、これは私が使用するものですtcshで