2012-03-30 18 views
1

C# languageを使用してウェブページの年齢を知る方法を教えてください。たとえば、私がこのen.wikipedia.org/wiki/ATI_Technologiesウェブサイトの年齢を私のC#プログラム(ウェブで最初に作成され/アップロードされた日)で見つけたいと思ったら、どうすればいいですか?どのような活動になるのか教えてください。C#Webページの年齢?

+0

は1ありません。特にWikipediaの場合。 – Yuck

+0

ウェブ全体を継続的にクロールし、最初に表示されたときに各ページをメモします。それからあなたはその質問に答えることができます。指標ではありません) – Joey

+0

ウエッにあなたの質問を置くべきか、それを行うことができることに注意してください、それはです*作成されたときの*。 – Joey

答えて

0

http://archive.orgには、使用するWebサービスのためにそれらを求めることができる、あなたが必要になり、その情報を持っています。

+0

これはかなり近いかもしれませんが、これは100%信頼できるものではありません。 archive.orgが見つかったもの(健全な懐疑主義)を真実に信じていても、あなたが探している特定のページをクロールできない/できなかった可能性があります。 –

+0

それは良い点ですが、メタデータとの組み合わせを使用できます。 – Har

+0

組み合わせは絶対に行く方法です。私はarchive.orgに行くのが一番良い選択肢だと思っていますが、問題のウェブサイトが "出生"から文書化されている場合にのみ、おそらく最良の選択です。 –

3

私はそれを行うための任意の信頼できる方法があるとは思いません。あなたは、ページのメタデータにそれを持つパブリッシャーを数える必要があります。誰もがそうではありません。

0

あなたは、HTTP応答ヘッダーにLast-Modifiedを確認することができます。

+0

、アドレスはリソース*ではなく、*ファイル*を* HTTPしかし、なぜグーグルやWebアーカイブでもないが、少し視点... – Joey

+0

私は同意して、その名前は説明的なものだと思っていましたが、何らかの情報を提供することができました。 –

0

とそのデータを取得する方法はありません高い信頼度。 WhoIsarchive.org(おかげHarHaHu、私は1つ忘れているだろう)、そして単純にquesitonにウェブサイトの所有者(複数可)を尋ねることはある程度うまくいくかもしれないが、個々のファイルまたはURLの元の発行日が保存されていませんホストのマシン上であっても、どこにでも自動的かつ安全に配置できます。ウィキペディアや他の多くのサイトでは、ほとんどのページでアーカイブと履歴情報を維持していますが、どこでもデータを偽造していないと信じなければなりません。

ページごとの履歴アーカイブは、この既存のデータは、探しているデータには詳細/信頼性がありません。これが意味することには多少の曖昧さがあります:特定のURLが200のレスポンスコードで応答し始めたときを追跡しますか?個々のファイルを追跡していますか?サイトの再配置、新しいページ、または古いページの場合はどうなりますか?正しく定義するのは難しい問題であり、完全に解決することは不可能な問題です。ご覧のサーバファイルと応答との関係1: