2011-07-03 8 views
0

Webページからすべてのリンクを自動的にダウンロードする方法を見つけようとしていますが、名前を変更することもできます。名前を変更してWebページからリンクをダウンロード

<a href = fileName.txt> Name I want to have </a> 

「名前を付けたい」という名前のファイルを取得したい(私は拡張子について心配しない)。

私はページソースを取得し、すべてのリンクを解析して手動でダウンロードすることができますが、そのための組み込みツールがあるかどうかは疑問です。

lynx --dump | grep http:// | cut -d ' ' -f 4 

は、wgetコマンドでフェッチ一括することができ、すべてのリンクを表示します - しかし、その場でのリンクの名前を変更する方法はありますか?

答えて

0

私はその後、私はすべてのフェッチするのawkやwgetの、猫を使用し、小さなシェルスクリプトを書きました(組み込みの変換の++メモ帳を使用して)最初のパスにUnicodeに完全にWebページを変換することによって

で問題を解決データ。

残念ながら、私はKOI8-Rからユニコードにページ全体を変換するツールをLinuxで見つけられなかったので、プロセスを自動化できませんでした。

1

私は何かこれが箱の中でこれをするのは疑う。 Pythonなどでスクリプトを書いて、ページをダウンロードし、ソースをロードすることをお勧めします(寛大な解析のためにBeautiful Soupライブラリを試してみてください)。次に、ソースをトラバースして属性とテキストでリンクをキャプチャし、必要な名前のファイルをダウンロードするのは簡単なことです。美しいスープを除いて(あなたが粗悪なHTMLを解析できるようにする必要がある場合)、Pythonで必要なのはすべてビルドされています。

+0

アドバイスしていただきありがとうございます。使用する言語/フレームワーク別の問題は、Beatuful Soupがさまざまなエンコーディングをサポートしている場合、ページ全体が非Unicodeエンコーディング(KOI8-R)になっていることです。 – iliaden

+0

ホームページの最初の2つの段落を見ると、自動検出しようとしていますが、失敗した場合はソースコードを指定でき、UTF-8に変換されます。 –

関連する問題