Webページからすべてのリンクを自動的にダウンロードする方法を見つけようとしていますが、名前を変更することもできます。名前を変更してWebページからリンクをダウンロード
<a href = fileName.txt> Name I want to have </a>
「名前を付けたい」という名前のファイルを取得したい(私は拡張子について心配しない)。
私はページソースを取得し、すべてのリンクを解析して手動でダウンロードすることができますが、そのための組み込みツールがあるかどうかは疑問です。
lynx --dump | grep http:// | cut -d ' ' -f 4
は、wgetコマンドでフェッチ一括することができ、すべてのリンクを表示します - しかし、その場でのリンクの名前を変更する方法はありますか?
アドバイスしていただきありがとうございます。使用する言語/フレームワーク別の問題は、Beatuful Soupがさまざまなエンコーディングをサポートしている場合、ページ全体が非Unicodeエンコーディング(KOI8-R)になっていることです。 – iliaden
ホームページの最初の2つの段落を見ると、自動検出しようとしていますが、失敗した場合はソースコードを指定でき、UTF-8に変換されます。 –