2011-01-20 9 views
0

ウェブスキャナを構築する必要があります。 一部のデータが変更された場合、このWebアプリケーションは任意のWebページをスキャンして結果を保存する必要があります。 キーワードを検索し、その値が変更/変更されているかどうかを調べる必要があります。 私はこのアプリケーションをasp.net mvcで作成します。 ウェブページをスキャンするにはどうすればよいですか?私は自分のページに私がスキャンするページのURLを挿入する場合、何が起こるのでしょうか?いくつかのコンテンツが変更された場合、それを探しているロボットですか? 私がそのようなことを構築するために必要なものを理解するのを手伝ってください。ウェブスキャナを構築するには?コンテンツが変更されて保存されている場合は、Webページをスキャンしてください。

+0

変更されますか?いつに比べて?セーブ?どこに? – spender

+0

は昨日から今日までに変更されます。いくつかのデータベースに保存します。私はそれのために何をすべきかを意味します。特定のユーザのキーを与えられたWebページを読み込むアプリケーションとして、いくつかのロボットを実装しますか? –

答えて

1

ページのマークアップを読み込み、チェックサムを生成するために使用し、それを次の日のページと比較できるように保存します。

+1

真実ですが、コンテンツ(「今日の日付」)が自然に変わるとどうなりますか?あなたが気にしないviewstateのようなものはどうですか? –

+1

合意。 要件を定義している人は誰でも考慮する必要があります。私は単にOPに技術的解決策の概要を伝えているだけです。 @Ragim「変更」を正確に定義するものを定義し、マークアップの一部または一部をロードするロジックにこの理解を組み込む必要があります。 RegExpを使ってHTMLを解析し、ヘッダーなどの日付のようにページの無関係な部分を含める/除外することをお勧めする人もいます。これはお勧めできません:http://stackoverflow.com/questions/1732348/regex-match -open-tags-except-xhtml-self-contained-tags 幸いです。 – 5arx

関連する問題