2010-11-29 16 views
2

私は自然言語処理のプロジェクトを持っていましたが、Yahooのニュース、Googleニュース、ブログなどのいくつかのソースから多くのWeb記事をクロールする必要があります...多くのニュース記事をクロールするにはどうすればよいですか?

私はJava開発者ですむしろJavaツールを使用してください)。私は自分自身で各ソースWebサイトを解析し、HttpClient/XPathで記事を抽出することができますが、私は少し怠惰です:)ソースが1つのパーサを作る必要がないように方法はありますか?

(私はあまりにもだけでなく、2000年から今まで、新しい記事が、記事による興味を持っています)

答えて

4

NLPの最も難しい部分は、使用できるデータを取得しています。他のすべては数学だけです。

すべての著作権問題が原因で、各ニュースソースのウェブサイト以外の多数のニュース記事が見つからない場合があります。最近のニュースが必要ない場合は、おそらくLinguistic Data ConsortiumのEnglish Gigaword corpusを見てください。あなたが大学にいれば、すでに無料でデータを使用するという既存の関係があるかもしれません。

ウェブサイトを実際にクロールして解析する必要がある場合は、さまざまなニュースサイトの特定のパーサーを作成して正しいテキストが得られるようにする必要があります。ただし、HTML5を使用してウェブサイトを開設すると、article tagを使用して関連するテキストを簡単に取り出すことができます。

実際のクロールを行うには、this previous questionが役立ちます。

関連する問題