2016-04-01 10 views
0

私はWikipediaのページの内容を取得して、面白いことをしたいと思います。Wikipedia content parsing JSON

私はそれらをXML/JSON形式で取得したいと考えており、現時点ではそれを行う方法が見つからないようです。

私はこれまでのところ得ることに成功した瞬間のために:

https://en.wikipedia.org/w/api.php?action=query&format=jsonfm&prop=revisions&titles=April_1&rvprop=content&rvcontentformat=text%2Fx-wiki

富栄私はXWikiでコンテンツを受信し、私が原因ページがそれをサポートしていないという事実にJSONに変更することはできません。

XWikiをJSONに解析するにはどうすればよいですか、またはページの内容を取得するにはどうすればよいですか。

ありがとうございます!

+0

XWiki形式をjsonに変換するにはどうすればよいですか?あなたが本当にjsonでそれを表すことができるなら、その出力がどのようになると思いますか? – f1sh

+0

例として4月1日のページを例として取り上げると、最初のレベルの子どもたちがイベント、出生、死亡、祝日および遵守、外部リンクを持つツリーとして見たいと思っています。その後のイベントまたはちょうど年+イベント。 –

+1

これはウィキペディアの構造ではありません。各ページは単なるテキストです。内部に構造を持つことは、XWikiマークアップの結果です。それを構造化JSONに変換する場合は、コンバータを作成する必要があります。 – f1sh

答えて

0

はい、XWikiレンダリングの中のHTMLパーサを使用して、wikipediaによって生成されたHTMLを解析できます。これはあなたが望むものを何でもできるASTを与えます。

詳細はhttp://rendering.xwiki.org/xwiki/bin/view/Main/WebHomeを参照してください。

HTMLでウィキペディアのコンテンツを取得する方法を見つけるだけでいいです。