私はページを取得するためにurllibライブラリを使用しています。通常、私はトップレベルのドメイン名を持っています&私はそのドメイン内のすべてのページからいくつかの情報を抽出したいと思います。したがって、私はxyz.comを持っている場合、私はxyz.com/aboutなどからデータをフェッチするために自分のコードが欲しいここで私が使用しています何:ドメイン内のすべてのページを読む
import urllib,re
htmlFile = urllib.urlopen("http://www.xyz.com/"+r"(.*)")
html = htmlFile.read()
...............
このDOEはしかし私のためにトリックを行うませません。任意のアイデアが評価されます。
ありがとうございました。 -T
再帰的ウェブページダウンローダである 'wget'を使用して、ウェブページ、そのウェブページからリンクされたすべてのウェブページ、それらの*ウェブページからリンクされたすべてのウェブページなどをダウンロードします。 –
また、ちょっとメモを書いて、貧しい人のウェブサイトから大量のデータを取り出すことで貧しい人のウェブサイトを殺していないことを確認してください。 –
お役立ち情報をお寄せいただきありがとうございます。 – user818190