私は自然言語処理のプロジェクトを持っていましたが、Yahooのニュース、Googleニュース、ブログなどのいくつかのソースから多くのWeb記事をクロールする必要があります...多くのニュース記事をクロールするにはどうすればよいですか?
私はJava開発者ですむしろJavaツールを使用してください)。私は自分自身で各ソースWebサイトを解析し、HttpClient/XPathで記事を抽出することができますが、私は少し怠惰です:)ソースが1つのパーサを作る必要がないように方法はありますか?
(私はあまりにもだけでなく、2000年から今まで、新しい記事が、記事による興味を持っています)