2010-11-22 16 views
0

私はウェブページの内容を分析したい学校プロジェクトに取り組んでいます。しかし、私たちは、ナビゲーションバーやコメントのようなものに対処したいとは考えていません。特定のWebサイトを見ていれば、そのサイトのためにそのような無関係なものをフィルタリングするためのパーサを作ることができますが、これまでに遭遇したことのない任意のサイトで作業することを期待しています。ウェブページのコンテンツを分離するツールはありますか?

このようなことはもう存在しないと私は驚くことはありませんが、任意のウェブサイトでこの種のコンテンツを分離できるツールを知っている人はいますか?私は同じサイトから他の人とページを分けて運が少しありましたが、それは不完全であり、コメントなどが残っています。

私はJavaで作業していますが、アイデアに使用できる言語であれば何でもオープンソースを歓迎します。

答えて

2

arc90の可読性のunofficial APIを試すことができます。

基本的には、ウェブサイト上のコンテンツを抽出し、うまく書式設定された記事としてあなたに提示することです。ナビゲーションバー、コメント、およびWebページ上のコンテンツを囲む他のすべてのものはなくなりました。

+0

これは本当にクールに見える!私はそれをもっと近く見なければならないでしょう。 – Matt

0

私はあなたが望むことをするものは何かが存在するとは思っていません。 semanticマークアップがなければ、「本当の」コンテンツと他のものとを区別することは不可能です。これは本当の知性を必要とする仕事です。

さまざまな程度の正確さでHTMLを解析するツールはもちろんありますが、特定のサイトのページを処理するためのパターンベースの解決策を組み合わせることも可能です。一般的な構造/引き出されるべきパターン。

3

私は少し遅れましたが(特に学校プロジェクトの場合)、誰かがこれを将来のある時点で見つけた場合は、以下のことが役立ちます。

これを行うには、Javaライブラリを見つけました。パフォーマンスは、私の簡単なテストでは、読みやすさに似ています。 arc90の読みやすさの少なくとも1つのポートがあるが

http://code.google.com/p/boilerpipe/

1

少し遅れてこの会話にもイムけど...

のJava Boilerpipe抽出は、あなたが(ArticleSentencesExtractorはおそらく)何をしたい、おそらくですgithubのJavaへ。あなたが同じサイトからの2ページをdiff'ingてみてください貧しいマンboilerpipeを構築したい場合は

boilerpipe間

主な違いを(彼らはあなたがそうな興味深い結果を得るだろうと同じテンプレートを使用していると仮定した場合) 、可読性とdiffベースのハックは、ボイラーパイプがすべてのhtmlを取り除いても、いくつかの構造を保持するということです。

関連する問題