0
現在、私はseed.txt
ファイルをクロールするドメイン名のリストとともに使用していますが、このリストをDBに入れる方法はありますか?それはNutchでセットアップしますか?Nutchでは、DBを使用してすべてのシードURLのリストを保存するにはどうすればよいですか?
関連:関連するドメインの数に制限はありますか?
現在、私はseed.txt
ファイルをクロールするドメイン名のリストとともに使用していますが、このリストをDBに入れる方法はありますか?それはNutchでセットアップしますか?Nutchでは、DBを使用してすべてのシードURLのリストを保存するにはどうすればよいですか?
関連:関連するドメインの数に制限はありますか?
Nutchはこの機能を提供しませんが、the Injector.java fileをカスタマイズして、DBInputFormatのようなものを使用してデータベースから読み込むことができます。要するに
は、あなたは私がゴーラでAccumuloを使用しています
(SQL、NoSQLの、など)を好きなデータソースから情報を収集するために注入工程をカスタマイズすることができます。私はDBInputFormatがGoraをサポートしていると思います。 – jnbdz
それから、おそらく 'org.apache.accumulo.core.client.mapred.AccumuloInputFormat'を使うのが良いでしょう。私は自分自身でアキュムロと遊んだことはないが、これは正しい選択肢のようだ。 –