HTTPリクエストからデータを抽出する「ロボット」を構築するためのヘルプが必要

ASP.netとC＃でWebサイトを構築しています。そのコンポーネントの1つに、ユーザーがアカウントを持っているWebサイトにログインする必要があります携帯電話会社）を代理して、このサイトから情報を入手し、それをデータベースに保存します。HTTPリクエストからデータを抽出する「ロボット」を構築するためのヘルプが必要

私はこの行動を "掻き取り"といいます。

既にソフトウェアと統合するために使用できる製品はありますか？

私はそれを行うソフトウェアは必要ありません。私はC＃コードと統合できる何らかの種類のSDKが必要です。

おかげで、

Koby

出典

2011-10-12 Koby Mizrahy

ゼロ調査が検出されました。 – Andrey

[Selenium]（http://seleniumhq.org/download/）をお試しください。ブラウザを実行するには対話型デスクトップが必要ですが、サービスとしてセットアップするのは簡単ではないかもしれません。 – Rup

Andrey - 実際にこの質問を投稿することは、調査の一部です。自分の知識を共有したいと思う人々がいる場合、他の人の経験を使用してみませんか？これは、このサイトの内容です。それを信じるかどうか、私は研究をしています。 Georgeさん、ありがとうございます。 –

あなたがログインしたら、あなたがウェブリクエストから取得したHTMLを解析するためにHtmlAgilityPackを使用してください。

のログインはこちらを参照してください。：Login to website, via C#

出典

2011-10-12 14:10:03

ウェブサイトへのログイン部分は本当に私が欠けている部分です。 –

私は右のこれまでのところ、それを行うだろう任意の製品を発見していません。これを処理するため
一つの方法がある
に - 行うあなたの自己
によって要求 - ダウンロードしたHTML
から重要な情報を抽出するためにhttp://htmlagilitypack.codeplex.com/を使用する - あなたの自己によって抽出された情報の保存

事で、文脈に依存していること、
a）はマルチスレッド制御
b）の抽出ルール
C）持続性の制御：あなたは非常に大規模な製品を必要とし、まだそれは、カスタムソリューションのパフォーマンス/精度に到達しないことを調整/設定するので、多くのものがあり、 d）のウェブスパイダー（またはどのように次のリンク解析することが選択されている）

出典

2011-10-12 14:09:38 Giedrius

Web Scraping Wikipedia Entryを確認してください。

ウェブスクレイピングで取得する必要があるのはアプリケーション固有のものであるため、ほとんどの場合、ウェブレスポンスストリームから必要なものをスクラップする方が効率的かもしれません。

出典

2011-10-12 14:16:47 apokryfos

HTTPリクエストからデータを抽出する「ロボット」を構築するためのヘルプが必要

答えて

関連する問題