Wikipediaのすべてのページタイトルを特定の言語で抽出するAPIはありますか? 特定の言語のWikipediaからすべてのページタイトルを抽出するためのAPI [Python 2.7]
0
A
答えて
1
タイトルのリストを取得する最も良い方法は、latest Wikipedia dumpからダウンロードすることです。 enwiki-latest-all-titles-in-ns0.gz
(リダイレクトと曖昧さ回避のページを含む記事の名前空間内のすべてのタイトル)またはenwiki-latest-all-titles.gz
(すべての名前空間内のすべてのタイトル)が必要な場合があります。これらは改行で区切られたテキストファイルなので、解凍した後は選択した言語で簡単に解析することができます。
ウィキメディア財団は、他の言語のウィキペディアやウィクショナリーやウィキブックスのような他のプロジェクトのデータベースダンプも作成します。たとえば、スペイン語ウィキペディアのダンプはdatabase dumps listの "eswiki"をクリックすると見つかります。
アクションAPIを使用して、/w/api.php?action=query&format=json&list=allpagesなどのページリストを取得することもできます。しかし、解析する記事がたくさんあるかもしれません。たとえば、英語のWikipediaには540万件の記事があるので、アクションAPIを使用して英語Wikipediaのすべての記事タイトルのリストを取得し、デフォルトの戻りページ数(10)を使用すると、リスト全体を取得するために54万件のリクエストを送信します。それはあなたにしばらく時間がかかるかもしれません。 ;)
興味のある場合は、API sandboxを使用して、さまざまなAPIパラメータで遊ぶことができます。詳細なドキュメントについては、API manualを参照してください。
関連する問題
- 1. Wikipedia APIとPython 2.7を使用して特定のユーザーのコメントを一覧から抽出します。
- 2. リストから特定の要素を抽出するpython 2.7
- 3. wikipedia apiから特定のデータを抽出
- 4. Wikipedia APIからのデータの抽出
- 5. DBpedia:特定の国と特定の言語ですべての組織を抽出する方法
- 6. C言語の文字列から特定の値を抽出する方法#
- 7. WikiTablesをWikipediaのページからAPIで抽出するには?
- 8. HTMLから抽出して特定の行を抽出する
- 9. Pythonのリストから特定のフィールドを抽出する方法
- 10. wikipediaすべてのページタイトルとページIDをダンプします
- 11. Excel特定の単語を1列から別の単語に抽出する
- 12. テキストファイルから特定のパターンの情報を抽出するためのスクリプト
- 13. 自然言語処理を使用して文章から特定の単語を抽出します。
- 14. PythonのウェブサイトからCSSメディアクエリを抽出する2.7
- 15. YouTube APIからタグを抽出するためのGoogle API
- 16. 特定のフィールドをPythonオブジェクトから抽出する
- 17. .shpファイルから特定のデータを抽出する - python
- 18. PDFからのデータ抽出のための自然言語処理
- 19. 記事内のすべての文字を除いたWikipedia APIが抽出を返しますか?
- 20. 複数の言語を使用したPython ocr pdfの抽出
- 21. wikipediaで言語APIを使用して取得したコンテンツの言語を変更する方法は?
- 22. Wikipedia APIからすべての人を取得する
- 23. カレンダーから特定の日付を抽出したいIN PYTHON
- 24. Pythonで特定の日の特定日を抽出する
- 25. 文字ベクトル内の2つの特定の単語間のすべての単語を抽出する
- 26. 特定の言語のすべての国を一覧表示
- 27. Python 2.7の特定のディレクトリへのzipファイルの内容の抽出
- 28. Github API:特定の言語で書かれたすべてのリポジトリを取得する方法
- 29. テキストファイルからの特定の単語抽出C#
- 30. Python Spider:特定の単語のフォームの結果を抽出する