2016-03-25 6 views
0

最近、nutch-1.11とsolr-4.10.4を使用してクローラをセットアップしました。順番にnutchコマンドでデータをクロールすることができますが、今は自分の問題は、stackoverflowの質問のタグのように、たとえば、これらのデータを私の目的のために索引付けに使用できますか?私は "local/conf/nutch-site"を設定して変更しようとしますが、私にとってはうまくいかず、私はNnutchのために新しいです!solrインデックスのstackoverflowのタグを取得するにはどうすればよいですか?

答えて

0

NutchはURLを取得するので、そのタグの質問へのリンクがすべて含まれている可能性のあるページを指し示すことができます。

たとえば、 https://stackoverflow.com/questions/tagged/nutch?sort=newestのように、このページにはNutchをタグとして持つすべての質問へのリンクが含まれています。今度は2つ以上のラウンドをクロールすることで、Nutchはこのページからすべてのアウトリンクを取得します。

関連する問題