Wikipediaのすべての記事のタイトルを、余分な文字やページIDなしで1か所で取得する方法。記事のタイトルだけ。このような何か:すべてのWikipedia記事のタイトルを取得するには?
私はWikipediaのダンプをダウンロードすると、私はたぶん私は私のすべてのページを取得する可能性があります動きを知っているが、私は1つのテイク内のすべてのページを取得したいthis
を取得します。
Wikipediaのすべての記事のタイトルを、余分な文字やページIDなしで1か所で取得する方法。記事のタイトルだけ。このような何か:すべてのWikipedia記事のタイトルを取得するには?
私はWikipediaのダンプをダウンロードすると、私はたぶん私は私のすべてのページを取得する可能性があります動きを知っているが、私は1つのテイク内のすべてのページを取得したいthis
を取得します。
データベースのダンプがhere(69メガバイト)であるとして、あなたは英語版ウィキペディアのための主要な名前空間にhttps://dumps.wikimedia.org
にページタイトルの最新リストをそれを見つけることができます。
するのではなく、あなたがquery
とlist=allpages
を使用しますが、あなたは英語版ウィキペディアのために10回の以上の000 APIの呼び出しを行う必要がありますので、のみ、一度にあなたに最大500(ボットのための5K)を与えることAPIを通してそれをしたい場合。
例:https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&aplimit=max
私は記事のタイトルがほしいだけです。私が欲しいものをあなたに見せてもらえますか? – user6779864
データベースダンプからは、タイトルのある列を選択するだけで、単純なリストが得られます。 – Ainali
@Ainaliあなたは私にそれをしている写真を見せますか? – user6779864
あなたは今では何をしましたか?私はあなたの質問をdownvoteしませんが、ここで多くの人々は正しく質問しなければなります。 –
私はこれを読むことをお勧めします:http://stackoverflow.com/help/how-to-ask –
私はそれを読んだが、私は欲しいものが見えませんでした。 – user6779864