2011-10-12 6 views
0

ASP.netとC#でWebサイトを構築しています。そのコンポーネントの1つに、ユーザーがアカウントを持っているWebサイトにログインする必要があります携帯電話会社)を代理して、このサイトから情報を入手し、それをデータベースに保存します。HTTPリクエストからデータを抽出する「ロボット」を構築するためのヘルプが必要

私はこの行動を "掻き取り"といいます。

既にソフトウェアと統合するために使用できる製品はありますか?

私はそれを行うソフトウェアは必要ありません。私はC#コードと統合できる何らかの種類のSDKが必要です。

おかげで、

Koby

+8

ゼロ調査が検出されました。 – Andrey

+0

[Selenium](http://seleniumhq.org/download/)をお試しください。ブラウザを実行するには対話型デスクトップが必要ですが、サービスとしてセットアップするのは簡単ではないかもしれません。 – Rup

+0

Andrey - 実際にこの質問を投稿することは、調査の一部です。自分の知識を共有したいと思う人々がいる場合、他の人の経験を使用してみませんか?これは、このサイトの内容です。それを信じるかどうか、私は研究をしています。 Georgeさん、ありがとうございます。 –

答えて

2

あなたがログインしたら、あなたがウェブリクエストから取得したHTMLを解析するためにHtmlAgilityPackを使用してください。

のログインはこちらを参照してください。 :Login to website, via C#

+0

ウェブサイトへのログイン部分は本当に私が欠けている部分です。 –

1

私は右のこれまでのところ、それを行うだろう任意の製品を発見していません。これを処理するため
一つの方法がある
に - 行うあなたの自己
によって要求 - ダウンロードしたHTML
から重要な情報を抽出するためにhttp://htmlagilitypack.codeplex.com/を使用する - あなたの自己によって抽出された情報の保存

事で、文脈に依存していること、
a)はマルチスレッド制御
b)の抽出ルール
C)持続性の制御:あなたは非常に大規模な製品を必要とし、まだそれは、カスタムソリューションのパフォーマンス/精度に到達しないことを調整/設定するので、多くのものがあり、 d)のウェブスパイダー(またはどのように次のリンク解析することが選択されている)

0

Web Scraping Wikipedia Entryを確認してください。

ウェブスクレイピングで取得する必要があるのはアプリケーション固有のものであるため、ほとんどの場合、ウェブレスポンスストリームから必要なものをスクラップする方が効率的かもしれません。

関連する問題