WikiTablesをWikipediaのページからAPIで抽出するには？

私はBallon_d'Or上のWikipediaのページのためのAPIサンドボックスを使用してテーブルを含むウィキペディアのページから、すべてのテキストコンテンツを抽出しようとしています。WikiTablesをWikipediaのページからAPIで抽出するには？

私は与えられた問い合わせてみました：

https://en.wikipedia.org/w/api.php?action=query&format=json&prop=extracts&titles=Ballon_d%27Or&explaintext=1&exsectionformat=wiki

をが、それはこのようなwikiのテーブルからのコンテンツずにのみ、テキストコンテンツを私に提供：

方法私はあります既に得られているテキスト情報とともに、テキスト形式で表の内容を得ることができますか？

代わりに、私は美しいスープを使用してWebクローリング技術を試すことができますが、私は最初に、クエリメソッドを探したいと思いました。代わりにquery

いいえ、あなたはHTMLパーサのいくつかの種類を使用する必要があります。 – Tgr

使用action = parse：あなたが第二のセクションWinnersにアクセスする&section=2を使用することにより

https://en.wikipedia.org/w/api.php?action=parse&page=Ballon_d'Or&prop=text

。

これは多分、後にも役立ちます。Regular expression to remove HTML tags

2017-03-19 08:50:56 Termininja

答えて