2016-07-08 9 views
0

テーブルからwikiダンプ内のデータを抽出する必要があります。リストのリストしかし、ダンプのフォーマットのため、それは扱いにくいようです。私はWikiExtractorを知っています。これはダンプからきれいなテキストを取得するのに便利ですが、テーブル全体を削除します。同じ方法でテーブルを読みやすくするパーサがありますか?dumpからWikpediaテーブルを解析するための既存のライブラリはありますか?

+0

あなたはここに確認しました:https://www.mediawiki.org/wiki/API:Main_page –

+0

@joelgoldstick私は[パーサリストページ](https://www.mediawiki.org/wiki/Alternative_parsers)を見て、それらのいくつかを調べましたが、私のニーズに合ったものをまだ見つけていません(XMLダンプ、私が使用できるもの - Pythonまたはスタンドアロン)。そのうちのいくつか、例えばDizzyLogicにアクセスすることさえできません。だからこそ、テーブルをきれいに表現できるパーザーをすでに誰かが使用していたかどうかを尋ねることにしました。 APIはXMLダンプとは何の関係もないので、ヘルプを呼び出すことはありません。 – Vilmar

答えて

0

私は、XMLダンプからWikipediaのテーブルを解析する良い方法を見つけることができませんでした。しかし、HTMLパーサーを使用する方法はいくつかあります。 wikitablesパーサ。これは、特定のページからのテーブルのみを分析する必要がない限り、多くの掻き取りを必要とします。しかし、HTMLのWikiのダンプが再開しようとしているようだとして、それをオフラインで行うことが可能と思われる(dumpsphabricator task

関連する問題