MSDN is a huge hierarchical doc site.再帰Webダウンロード以下のリンクは、DOMの基準に従って
は、より正確には、コンテンツを階層的に組織化が、URLはありませんされています。 URLスペースはフラットなので、すべてが同じディレクトリにあるように見えます。 (実際には、ディレクトリが存在しない可能性がありますが、他のデータベースからものが出てきていると思いますが、ここでは関係ありません)
MSDNの一部をダウンロードする場合は、NMake manual指定されたディレクトリの下のすべてを再帰的にダウンロードすることはできません。それはMSDNのすべてになるからです。あなたのハードドライブと帯域幅には多すぎます。
しかし、あなたはその後、CSS class
属性toc_children
とtoc_siblings
ではなくtoc_parent
のものと同様に、文書の特定のナビゲーションセクションに含まれているだけで、これらのリンクをたどると、ダウンロードするにはDOM(HTML)を見て、スクリプトを書くことができます。
何が必要だろうが、あなたが言うことができますいくつかのダウンローダのようになります。
$webclient->add_links($xpath_expression); # or
$webclient->add_links($css_selector);
Perlの、LWPとXMLを使用して、一緒に何かを考え出すにはあまりにも難しいことではありません::のlibxml(HTMLパーサ)しかし、おそらくあなたはそれを再現する必要はないので、あなたはそれを行うことを可能にするツールを知っているかもしれません。
Perlである必要はありません。他の言語でも問題ありません。このジョブに必要な柔軟性を備えた既製のプログラムもあります。
あなたは質問をするのを忘れてしまったようです。 – ikegami
@ikegami - 正確か、密なのか?私は「たぶん、そうすることができるツールを知っているかもしれない」と書いていますが、私は疑問符を忘れてしまったことは認めています。 – Lumi
いいえ、非常に正確なカスタム要件に一致する既存のツールはありません。しかし、ええ、私は密集しています。私はあなたの利益のために私が聞いた唯一の質問(私のコードを書くことができますか?)を意図的に無視しています。 – ikegami