html srcから人間が読めるコンテンツを抽出することは可能ですか？

HTMLはマークアップ言語であり、多くのものが混在しています。しかし、私はいくつかのコンテンツ分析を行うために、Webサイトから人間が読めるデータを抽出したいと考えています。しかし、私が見ることができるのはhtmlコードだけです。私はすべてのHTMLタグを1つずつ抽出してテキストを抽出し、イメージを取り出すことができます。（少なくとも、データの大半はgrepできますが、JavaScriptのデータは入れません）これを行う代わりに、これを行うより効率的な方法がありますか？ありがとう。html srcから人間が読めるコンテンツを抽出することは可能ですか？

***あなたはこのようなオオヤマネコなどの端末モードブラウザを使用して、プレーンテキストとしてウェブサイトをレンダリングしようとし、その出力に内容分析を行うことができ、プログラミング言語

出典

2012-02-29 DNB5brims

何（プログラミング）言語ですか？ほとんどの言語は、HTMLタグを取り除くためのパッケージをいくつか持っています。 – deceze