2010-12-20 5 views
3

さまざまな(非API)インターネットソースからのデータの抽出を容易にする必要がある場合、開発者に再利用可能な、しかもソース固有のパーサーを大規模に書くプロセスを合理化するフレームワーク型のソリューションがあります?Python解析フレームワーク

+3

HTMLを解析する必要がありますか? –

+0

はい、場合によってはテキストでもあるので、まっすぐなhtmlパーサは完全な解決策ではありません。理想的には、HTMLテンプレートエンジンに似ていますが、逆になります。タイド:{{time}}でも、htmlやループのようなもっと複雑なものでも使えます。 – NFicano

答えて

5

Pyparsingは、カスタムドメイン固有の言語を解析するのに非常に役立つと判明したPythonライブラリです。

0

* MLのスクリーンスクレーピングの場合は、Beautiful Soup以上を見てください。