私は特定のカテゴリに属するすべてのWikipedia記事を集め、Wikipediaからダンプを取り出し、それを私たちのデータベースに入れているプロジェクトを持っています。Pythonを使用してWikipediaのダンプファイルをパーサで解析するパーサー/ウェイがありますか?
だから私は、ものを成し遂げるためにWikipediaのダンプファイルを解析する必要があります。この仕事をするパーサーが効率的ですか?私はPython開発者です。だから私はPythonで任意のパーサーを好む。 1つを示唆していない場合は、私はPythonでそれのポートを書いて、それをWebに寄付しようとするので、他の人がそれを利用したり、少なくとも試してみてください。
だから私が望むすべては、Wikipediaのダンプファイルを解析するPythonのパーサです。私は、各ノードを解析してその作業を完了させる手動パーサーを作成し始めました。