htmlページのコンテンツを検索するアルゴリズム

htmlページをスクラップしながらコンテンツを見つけるための既存のテクニックやライブラリがあるかどうかは疑問です。私は両方のサーバー側とクライアント側のJavaScriptを使用しているので、どちらかを利用することができます。htmlページのコンテンツを検索するアルゴリズム

私はもともとreadability.jsを考えていましたが、もう利用できないようです。理想的なテクニックは、超高精度である必要はなく、ページからテキストを解析できるだけです。 Facebookのスクレーパーの仕組みが完璧なようなもの。

2012-02-29 James

もちろん、元のポリシーが同じため、Javascriptで実行することはできません。バックエンド技術を使用し、HTMLをHTML/DOM/XMLパーサーで解析する必要があります – scibuff

2012-02-29 17:38:52 Manatok

をあなたはPythonで書かれた読みやすクローンである、decruftを見てすることができます。

2012-02-29 22:20:47 Edouard

答えて