2017-05-07 4 views
1

Wikipediaのすべてのタイトル/抜粋のペアを取得する方法はありますか?Wikipediaの抜粋をまとめて取得する

  • ダウンロード抜粋ダンプが、それは、私が思うの記事の最初の行として取ら不完全/無効の抜粋が含まれています瞬間に私は、2つの方法を見つけました。
  • MediaWikiのAPIを使用して
  • 要求抜粋していますが、のみ(バルククエリは抜粋のために働いていません)、要求ごとに単一の抜粋を取得することができますので、それはextremelly遅いです:

/w/api.php?action=クエリ&フォーマットはJSON = &タイトル=メイン ページ&は、私がしたい& explaintext = & exintro =

&小道具=抽出物をリダイレクトWikipediaサーバーに負担をかけることなくMediaWiki APIによって生成されるため、抜粋を得ることができます。 可能でしょうか?

P.S.私はプレーンテキストとして抜粋が必要です。 wikiのテキストや書式は必要ありません。 これは、MediaWikiのAPIを経由して、一度に20本の抜粋の最大値を取得することが可能です:

は、それが現在できませんhttps://en.wikipedia.org/w/api.php?action=help&modules=query%2Bextracts

& exlimit = 20

+0

最後の[データベーススナップショット](https://en.wikipedia.org/wiki/Wikipedia:Database_download)をダウンロードしてください。 –

答えて

1

を参照してください。 CouはYahoo抄録in the dumpsを見ることができます。これは類似したことを試みます(あまりうまくいかない)。彼らはthe ActiveAbstract extensionによって供給されています。

関連する問題