2009-03-19 7 views

答えて

2

.NETでスクリーンスクレイピングを実行するための優れたツールキットがHTML Agility Packであると言われました。

あなたが記述しているように、スクリーンスクレイプソリューションを安定したものにすることや、汎用目的にすることは、常に非常に難しいことに注意してください。あなたが欲しいものを行う必要があります窓や正規表現のためにwgetを使用してScreen scraping: regular expressions or XQuery expressions?

0

取得しようとしているデータがRSSなどの手段で利用できないと仮定すると、ページスクレーパーを探すように見えます。 「.NET HTMLスクレイパー」のグーグルリングは、そのトピックに関する豊富な情報を返します。

1

あなたのシナリオを実際には意図していませんが、Watinをご覧ください。私はあなたがしたいことがスクリーンスクレープであると仮定しています。 Watinは簡単に使えるようになり、あなた自身で解析コードの多くを書くことができなくなります。

0

人間が読むために作られたウェブサイトを読むことは常に問題です。私はこれを数年前から行いました。 XMLやRSSのようなものから必要なデータを探し出すことは、常に良い考えです。

ウェブサイトのレイアウトは変更される可能性がありますので、アプリケーションを変更する必要があります。しかし、主な問題は、ページに必要な情報を見つけることです。 contains、left、mid、indexOfのような多くの文字列メソッドが常に必要です。

HTMLはXMLのようなものなので、おそらくXMLパーサーが動作します。しかし、ブラウザは常にもう少し寛容であり、整形されていない多くのページを受け入れて表示します。

0

サイトでAPIが提供されていない場合は、ウェブサイトを「スクラップする」ことになります。これは確かに可能ですが、それは非常に脆いです。ウェブサイトが変更された場合、必要な情報を「見つける」ために使用するロジックが壊れてしまいます。特定の情報を見つける汎用的なアプリケーションを持つことは素晴らしいコンセプトですが、信頼性の高い実装は難しいです。

1

はまた、他のこの質問への回答を参照してください。 wgetを使用してソースコードを取得し、正規表現を使用してすべてのコードをフィルタリングしたり、パターンがある場合は探しているものを正確に取得したりします。

+0

これは参考用ですwget url http://www.gnu.org/software/wget/ –

関連する問題