2011-07-24 13 views
1

私はウィキペディアのすべての死者のリストを抽出し、死亡時の年齢を比較したいと思います。ウィキペディアのすべての死者には、次のフィールドがあります。Wikipediaから統計を抽出するには?

| birth_name = Thomas Alva Edison 
| birth_date = {{birth date|mf=yes|1847|02|11}} 
| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}} 

クローラを作成する必要がありますか? Wikipedia APIには私を助ける何かがありますか? クロールを開始できる場所はありますか?死んだ人のリスト?

http://dumps.wikimedia.org/enwiki/latest/

ファイルサイズが数ギガバイトの.xmlファイルであり、そして上のすべてのページのテキストが含まれています。あなたがここにダウンロード可能なウィキペディアのすべての内容のダンプを見つけることができます

+0

私のクローラの開始ページが見つかりました。それらはhttp://en.wikipedia.org/wiki/Category:1898_deaths –

答えて

1

ウィキペディア(他のものの中でも)。どのようにこれを処理するかは、使用するプログラミング言語によって異なります。

+0

に似ています。それは1つの選択肢です。しかし、私はこのファイルをダウンロードして解析するよりも早くクローラを動作させることができると思う。 –

+1

これで、クローラの開始ページがあると述べたので、おそらくもっと速い方法があります。 – EdoDodo

0

これはDBpediaのためのものです - データベース内のWikipediaのすべての構造化データ。 http://dbpedia.org/sparqlで次のクエリを実行してください:

select distinct ?p, ?d where { 
    ?p a <http://dbpedia.org/ontology/Person> . 
    ?p <http://dbpedia.org/ontology/deathDate> ?d . 
} 
関連する問題