2012-02-29 5 views
0

htmlページをスクラップしながらコンテンツを見つけるための既存のテクニックやライブラリがあるかどうかは疑問です。私は両方のサーバー側とクライアント側のJavaScriptを使用しているので、どちらかを利用することができます。htmlページのコンテンツを検索するアルゴリズム

私はもともとreadability.jsを考えていましたが、もう利用できないようです。理想的なテクニックは、超高精度である必要はなく、ページからテキストを解析できるだけです。 Facebookのスクレーパーの仕組みが完璧なようなもの。

+0

もちろん、元のポリシーが同じため、Javascriptで実行することはできません。バックエンド技術を使用し、HTMLをHTML/DOM/XMLパーサーで解析する必要があります – scibuff

答えて

1

をあなたはPythonで書かれた読みやすクローンである、decruftを見てすることができます。