htmlページをスクラップしながらコンテンツを見つけるための既存のテクニックやライブラリがあるかどうかは疑問です。私は両方のサーバー側とクライアント側のJavaScriptを使用しているので、どちらかを利用することができます。htmlページのコンテンツを検索するアルゴリズム
私はもともとreadability.jsを考えていましたが、もう利用できないようです。理想的なテクニックは、超高精度である必要はなく、ページからテキストを解析できるだけです。 Facebookのスクレーパーの仕組みが完璧なようなもの。
もちろん、元のポリシーが同じため、Javascriptで実行することはできません。バックエンド技術を使用し、HTMLをHTML/DOM/XMLパーサーで解析する必要があります – scibuff