2011-10-22 15 views
2

ほとんどのホビープロジェクトで、いくつかのウェブページ、主にユーザーが投稿するブログやニュースサイトをスクラップします。ウェブクロール - Javaのウェブページのメインコンテンツを確認する

我々は、我々はいくつかをやりたい、単にURLのリストを取り、すべてのコンテンツに引っ張っページを擦る小さなスクリプトは、Apache HTTPコンポーネントを使用しての基本的ハローワールドバージョン...とにかく

を持っていますこれらのページに表示されるテキストの分析しかし、任意の形式でURLが表示されるため、ウェブページのメインコンテンツを識別するための信頼性の高い方法が必要です(ここではいくつかのエラーがあります)。

Webページの主要なテキストコンテンツを識別するために使用できるオープンソースのフレームワークやJavaのスクリプトはほとんど知られていますか?

最も目に見えるテキストを持つ最大のDOM要素を探したり、一部のテキスト(つまりメタデータ)を記述するために使用された文字の数と実際のテキストデータを単純に比較するなど、いくつかの方法があります。私は誰かがJavaでこれを行うために何かをリリースしてくれることを望んでいましたが、もしそうでなければ、私はこれをやっていくつもりであるので、そのようなユーティリティの必要性はありますか?

乾杯!

答えて

3

私はboilerpipeがあなたに役立つと思います。 はこちらをご覧:http://code.google.com/p/boilerpipe/

そして、ここではチュートリアルです: http://code.google.com/p/boilerpipe/wiki/QuickStart

私には非常に簡単に思える:

URL url = new URL("http://www.example.com/some-location/index.html"); 
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you   
String text = ArticleExtractor.INSTANCE.getText(url); 
関連する問題