2012-02-29 5 views
1

HTMLはマークアップ言語であり、多くのものが混在しています。しかし、私はいくつかのコンテンツ分析を行うために、Webサイトから人間が読めるデータを抽出したいと考えています。しかし、私が見ることができるのはhtmlコードだけです。私はすべてのHTMLタグを1つずつ抽出してテキストを抽出し、イメージを取り出すことができます。 (少なくとも、データの大半はgrepできますが、JavaScriptのデータは入れません)これを行う代わりに、これを行うより効率的な方法がありますか?ありがとう。html srcから人間が読めるコンテンツを抽出することは可能ですか?

***あなたはこのようなオオヤマネコなどの端末モードブラウザを使用して、プレーンテキストとしてウェブサイトをレンダリングしようとし、その出力に内容分析を行うことができ、プログラミング言語

+0

何(プログラミング)言語ですか?ほとんどの言語は、HTMLタグを取り除くためのパッケージをいくつか持っています。 – deceze

答えて

0

としてJavaを使用。

0

HTMLがどれほど複雑で構造が整っているかによって、XSLT http://www.w3schools.com/xsl/を作成して、HTMLをより読みやすいものに変換することができます。