dumpからWikpediaテーブルを解析するための既存のライブラリはありますか？

テーブルからwikiダンプ内のデータを抽出する必要があります。リストのリストしかし、ダンプのフォーマットのため、それは扱いにくいようです。私はWikiExtractorを知っています。これはダンプからきれいなテキストを取得するのに便利ですが、テーブル全体を削除します。同じ方法でテーブルを読みやすくするパーサがありますか？dumpからWikpediaテーブルを解析するための既存のライブラリはありますか？

出典

2016-07-08 Vilmar

あなたはここに確認しました：https://www.mediawiki.org/wiki/API:Main_page –

@joelgoldstick私は[パーサリストページ]（https://www.mediawiki.org/wiki/Alternative_parsers）を見て、それらのいくつかを調べましたが、私のニーズに合ったものをまだ見つけていません（XMLダンプ、私が使用できるもの - Pythonまたはスタンドアロン）。そのうちのいくつか、例えばDizzyLogicにアクセスすることさえできません。だからこそ、テーブルをきれいに表現できるパーザーをすでに誰かが使用していたかどうかを尋ねることにしました。 APIはXMLダンプとは何の関係もないので、ヘルプを呼び出すことはありません。 – Vilmar

私は、XMLダンプからWikipediaのテーブルを解析する良い方法を見つけることができませんでした。しかし、HTMLパーサーを使用する方法はいくつかあります。 wikitablesパーサ。これは、特定のページからのテーブルのみを分析する必要がない限り、多くの掻き取りを必要とします。しかし、HTMLのWikiのダンプが再開しようとしているようだとして、それをオフラインで行うことが可能と思われる（dumps、phabricator task）

出典

2016-09-05 07:03:23 Vilmar

dumpからWikpediaテーブルを解析するための既存のライブラリはありますか？

答えて

関連する問題