2012-04-03 6 views
0

私はウィキペディアの最新のダンプをダウンロードし、それをMySQLデータベースとして解析しました。今私はタイトルとcontent.Myのみを含むデータベーステーブルがあります。私の要件は、このテーブルからすべての伝記の内容を抽出することです。私はすべての伝記のタイトルを持つダンプファイルが欲しい。 ありがとうございますWikipediaで伝記のタイトルにアクセスする

+0

データベーステーブルには、そのタイトルに関連するタイトルとコンテンツのみが含まれています。これはenwiki-articles-latest.xmlを解析して得ました。しかし、私の要件は、カテゴリーバイオグラフィーのタイトルに関連するコンテンツのみを取得することです。私がウィキペディアですべての伝記のリストを入手したら、私は自分のデータベーステーブルからコンテンツを取り出すことができます。 –

答えて

0

すべての記事を一部のカテゴリとそのすべてのサブカテゴリで取得したい場合は、the categorylinks tableを使用し、それを再帰的に歩いてサブカテゴリを取得する必要があります。

あなたの質問から、正確に何が欲しいのかは明らかではありません。記事についての略歴をご希望の場合は、Category:Biographyをご覧ください。 の記事がの場合は、Category:Peopleのサブカテゴリを見てください。

+0

私は人に関する記事が必要です.Wikipediaのすべての記事トピックをpeople.Like mysqlダンプのように入手できますか? –

+0

いいえ、あなたはカテゴリツリーを自分で歩く必要があります。 – svick

関連する問題