名前を変更してWebページからリンクをダウンロード

Webページからすべてのリンクを自動的にダウンロードする方法を見つけようとしていますが、名前を変更することもできます。名前を変更してWebページからリンクをダウンロード

<a href = fileName.txt> Name I want to have </a>

「名前を付けたい」という名前のファイルを取得したい（私は拡張子について心配しない）。

私はページソースを取得し、すべてのリンクを解析して手動でダウンロードすることができますが、そのための組み込みツールがあるかどうかは疑問です。

lynx --dump | grep http:// | cut -d ' ' -f 4

は、wgetコマンドでフェッチ一括することができ、すべてのリンクを表示します - しかし、その場でのリンクの名前を変更する方法はありますか？

出典

2011-07-03 iliaden

私はその後、私はすべてのフェッチするのawkやwgetの、猫を使用し、小さなシェルスクリプトを書きました（組み込みの変換の++メモ帳を使用して）最初のパスにUnicodeに完全にWebページを変換することによって

で問題を解決データ。

残念ながら、私はKOI8-Rからユニコードにページ全体を変換するツールをLinuxで見つけられなかったので、プロセスを自動化できませんでした。

出典

2011-07-03 02:13:09 iliaden

私は何かこれが箱の中でこれをするのは疑う。 Pythonなどでスクリプトを書いて、ページをダウンロードし、ソースをロードすることをお勧めします（寛大な解析のためにBeautiful Soupライブラリを試してみてください）。次に、ソースをトラバースして属性とテキストでリンクをキャプチャし、必要な名前のファイルをダウンロードするのは簡単なことです。美しいスープを除いて（あなたが粗悪なHTMLを解析できるようにする必要がある場合）、Pythonで必要なのはすべてビルドされています。

出典

2011-07-03 00:44:28

アドバイスしていただきありがとうございます。使用する言語/フレームワーク別の問題は、Beatuful Soupがさまざまなエンコーディングをサポートしている場合、ページ全体が非Unicodeエンコーディング（KOI8-R）になっていることです。 – iliaden

ホームページの最初の2つの段落を見ると、自動検出しようとしていますが、失敗した場合はソースコードを指定でき、UTF-8に変換されます。 –

名前を変更してWebページからリンクをダウンロード

答えて

関連する問題