2017-06-21 3 views

答えて

1

タイトルのリストを取得する最も良い方法は、latest Wikipedia dumpからダウンロードすることです。 enwiki-latest-all-titles-in-ns0.gz(リダイレクトと曖昧さ回避のページを含む記事の名前空間内のすべてのタイトル)またはenwiki-latest-all-titles.gz(すべての名前空間内のすべてのタイトル)が必要な場合があります。これらは改行で区切られたテキストファイルなので、解凍した後は選択した言語で簡単に解析することができます。

ウィキメディア財団は、他の言語のウィキペディアやウィクショナリーやウィキブックスのような他のプロジェクトのデータベースダンプも作成します。たとえば、スペイン語ウィキペディアのダンプはdatabase dumps listの "eswiki"をクリックすると見つかります。

アクションAPIを使用して、/w/api.php?action=query&format=json&list=allpagesなどのページリストを取得することもできます。しかし、解析する記事がたくさんあるかもしれません。たとえば、英語のWikipediaには540万件の記事があるので、アクションAPIを使用して英語Wikipediaのすべての記事タイトルのリストを取得し、デフォルトの戻りページ数(10)を使用すると、リスト全体を取得するために54万件のリクエストを送信します。それはあなたにしばらく時間がかかるかもしれません。 ;)

興味のある場合は、API sandboxを使用して、さまざまなAPIパラメータで遊ぶことができます。詳細なドキュメントについては、API manualを参照してください。

関連する問題