0
私はWikipedia APIを使用してすべてのページのすべてのリンクを取得しようとしています。現在、私はWikipediaリンクのツリーを作成する
を使用していますが、これは最初の記事で開始し、最後で終了していないようです。すべてのページとすべてのリンクを生成するにはどうすればよいですか?
私はWikipedia APIを使用してすべてのページのすべてのリンクを取得しようとしています。現在、私はWikipediaリンクのツリーを作成する
を使用していますが、これは最初の記事で開始し、最後で終了していないようです。すべてのページとすべてのリンクを生成するにはどうすればよいですか?
英語のウィキペディアには、約10億の内部リンクがあります。 list=alllinks
モジュールではリクエストごとに500リンクの制限があることを考慮すると、APIからすべてのリンクを取得するのは現実的ではありません。
代わりにWikipedia's database dumpsをダウンロードして使用することができます。具体的には、リンク自体に関する情報を含むpagelinks
ダンプと、ページIDにページタイトルをマッピングするためのダンプ(page
)があります。
https://dumps.wikimedia.org/enwiki/ – Termininja
あなたは 'generator = allpages'をしたいと思うかもしれませんが、英国のWikipediaのすべての4,000万ページを循環させたいとは思わないでしょう。 – Tgr