2017-09-02 4 views
0

ウィキメディア・ウィキペディア(Wikimedia/Wikipedia)APIに関する簡単な質問があります。ウィキペディア/ウィキメディア・リビジョン・ページからの変更の抽出

"revids"のリストから行った変更を取得する必要があります。私は "revids"のバッチのXMLコンテンツを取得することができましたが、変更されたテキストのみを抽出できませんでした。

APIは、変更された文章のみを抽出する手段を提供していますか?このジョブを実行できる外部スクリプト/モジュールがない場合は、リビジョンの詳細をフェッチする

問合せ:https://en.wikipedia.org/w/api.php?action=query&prop=info|revisions&rvprop=user|userid|ids|tags|comment|content&format=jsonfm&revids=1228415

私はこの問題を解決できる任意の提案/ソリューションをいただければ幸いです!

答えて

0

あなたはaction=compareと古いものと新しいテキストの間の差分を取得することができます(現在、私は、クエリを作成するWikitoolsのPythonモジュールを使用しています)が、それセグメントウィキテキスト株によるテキストではなく、文章、ISN」機械可読であることを意味し、一般的にそれは有用ではありません。 Pythonを使用しているので、クライアント側ライブラリdeltasがおそらくあなたのためにうまくいくでしょう。

+0

私はいくつかの文脈を提供するために、[Wikipedia-Detox](https://github.com/ewulczyn/wiki-detox)の著者が使用したのと同じ方法を使用して特定の文章を抽出しようとしていますページのリビジョン。 Talkページから変更を抽出するのと同様の方法を導入しているに違いありません。私は彼らがそれを達成した方法を理解できませんでした、彼らは上記と同じlibを使用しましたか? –

+0

自分の[差分ロジック](https://github.com/ewulczyn/wiki-detox/blob/master/src/data_generation/diff_utils.py)のように見えますか?一番簡単なのは、彼らに尋ねることです。また、これらの種類の質問については、[research mailing list](https://lists.wikimedia.org/mailman/listinfo/wiki-research-l)があります。 – Tgr

+0

私はそのファイルを見ましたが、入力と出力の形式のような高度な情報を理解できませんでした。どうやら、私はこのクエリに関する著者に電子メールを送ってきましたが、まだ回答を受け取っていません。私は一方で汎用的な解決策を得ることを望んでいた。私は、幅広い聴衆に届くように、メーリングリストの議論を進めようとします。 –

関連する問題