2012-04-13 3 views
0

URLをNutchにデータベースやサービスなどから直接取得することはできますか?私は、データベースやサービスからデータを取得してseed.txtに書き込む方法には興味がありません。Nutch Seed URL

答えて

1

いいえこれは、デフォルトのナチュラルコードベースで直接行うことはできません。そのためにはInjector.javaを修正する必要があります。

EDIT:

DBInputFormatを使用してみてください:SQLテーブルからの入力データを読み込んでInputFormat。あなたがここにInjectコード(以下スニペットで3行目)を変更する必要があります。

JobConf sortJob = new NutchJob(getConf()); 
sortJob.setJobName("inject " + urlDir); 
FileInputFormat.addInputPath(sortJob, urlDir); 
sortJob.setMapperClass(InjectMapper.class); 
+0

を私はあなたが推奨されるファイルを検査し、**は、シードファイルからの読み取りん**仕事を見つけました。ここでは、** JobConf **のテキストのようなテキストを入力する必要があります。中間結果として.txtにDB結果を取得したくありません。 JobConf sortJob = new NutchJob(getConf()); sortJob.setJobName( "inject" + urlDir); FileInputFormat.addInputPath(sortJob、urlDir); sortJob.setMapperClass(InjectMapper.class); –

+0

上記のEDITを参照してください。 –

+0

https://github.com/mongodb/mongo-hadoop/tree/2186ef3e0025f3fe4d6233a0eb4f9e6f815d86e4 –