2011-07-29 2 views
0

私はウェブページを呼び出すスクリプトを作成しようとしています(http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode次に=ツリー&キープ= 1 & srchmode = 1 &アンロックF & ID = 7742 & LVL = 3 & LIN =)、それをスキャンし、ネストされた各分類群内での注文、ファミリー、属、および種を引き出し。しかし、私は脊椎動物(ウェブサイト全体の非常に小さな部分)しか望んでいないが、様々な脊椎動物の分類群に関連するURLは、識別可能なパターン(すなわち、順次)ではない。これを合理的に行う方法はありますか?私は、この目標を達成するためのさまざまな方法を策定しようとすると、多くの問題を抱えてきました。Pythonは多重URLを呼び出してデータを引き出す

+0

これは**ウェブこすると呼ばれています**これには多くの事前のQ&Aがあります(そのうちの500本だけがPythonタグ付きです)。 Pythonでは、_twill_は_mechanize_の上にある使用可能なレイヤーです(オートメーションの場合)。実際の掻き取りについては_BeautifulSoup_です。 – smci

+0

[twill](http://twill.idyll.org/commands.html)は、具体的には[follow](http://twill.idyll.org/commands.html)コマンドが動作するように、以下のリンクを簡単に機械化するよりも簡単にしますリンクタイトル(URLではなく)。これで問題が解決しない場合は、これらのリンクのサンプルのHTMLスニペットを表示してください。 – smci

答えて

0

あなたは何をしたいか分かりませんが、私が理解したように、ページ内のリンクを探す何らかの種類のクローラを作成する必要があります。サイトを分類して分類しますか?などのフォームを提出し、簡単にリンクを抽出して、次の、あなたはWebブラウザをエミュレートし、サイトに沿って移動することができます

もしそうなら、mechanizeのために行く、など

関連する問題