2017-03-23 10 views
0

私はWikipedia APIを使用してすべてのページのすべてのリンクを取得しようとしています。現在、私はWikipediaリンクのツリーを作成する

https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0

を使用していますが、これは最初の記事で開始し、最後で終了していないようです。すべてのページとすべてのリンクを生成するにはどうすればよいですか?

+0

https://dumps.wikimedia.org/enwiki/ – Termininja

+0

あなたは 'generator = allpages'をしたいと思うかもしれませんが、英国のWikipediaのすべての4,000万ページを循環させたいとは思わないでしょう。 – Tgr

答えて

0

英語のウィキペディアには、約10億の内部リンクがあります。 list=alllinksモジュールではリクエストごとに500リンクの制限があることを考慮すると、APIからすべてのリンクを取得するのは現実的ではありません。

代わりにWikipedia's database dumpsをダウンロードして使用することができます。具体的には、リンク自体に関する情報を含むpagelinksダンプと、ページIDにページタイトルをマッピングするためのダンプ(page)があります。

関連する問題