Wikipediaのすべてのタイトル/抜粋のペアを取得する方法はありますか?Wikipediaの抜粋をまとめて取得する
- ダウンロード抜粋ダンプが、それは、私が思うの記事の最初の行として取ら不完全/無効の抜粋が含まれています瞬間に私は、2つの方法を見つけました。 MediaWikiのAPIを使用して
- 要求抜粋していますが、のみ(バルククエリは抜粋のために働いていません)、要求ごとに単一の抜粋を取得することができますので、それはextremelly遅いです:
/w/api.php?action=クエリ&フォーマットはJSON = &タイトル=メイン ページ&は、私がしたい& explaintext = & exintro =
&小道具=抽出物をリダイレクトWikipediaサーバーに負担をかけることなくMediaWiki APIによって生成されるため、抜粋を得ることができます。 可能でしょうか?
P.S.私はプレーンテキストとして抜粋が必要です。 wikiのテキストや書式は必要ありません。 これは、MediaWikiのAPIを経由して、一度に20本の抜粋の最大値を取得することが可能です:
は、それが現在できませんhttps://en.wikipedia.org/w/api.php?action=help&modules=query%2Bextracts
& exlimit = 20
最後の[データベーススナップショット](https://en.wikipedia.org/wiki/Wikipedia:Database_download)をダウンロードしてください。 –