0
URLをNutchにデータベースやサービスなどから直接取得することはできますか?私は、データベースやサービスからデータを取得してseed.txtに書き込む方法には興味がありません。Nutch Seed URL
URLをNutchにデータベースやサービスなどから直接取得することはできますか?私は、データベースやサービスからデータを取得してseed.txtに書き込む方法には興味がありません。Nutch Seed URL
いいえこれは、デフォルトのナチュラルコードベースで直接行うことはできません。そのためにはInjector.javaを修正する必要があります。
EDIT:
DBInputFormatを使用してみてください:SQLテーブルからの入力データを読み込んでInputFormat。あなたがここにInjectコード(以下スニペットで3行目)を変更する必要があります。
JobConf sortJob = new NutchJob(getConf());
sortJob.setJobName("inject " + urlDir);
FileInputFormat.addInputPath(sortJob, urlDir);
sortJob.setMapperClass(InjectMapper.class);
を私はあなたが推奨されるファイルを検査し、**は、シードファイルからの読み取りん**仕事を見つけました。ここでは、** JobConf **のテキストのようなテキストを入力する必要があります。中間結果として.txtにDB結果を取得したくありません。 JobConf sortJob = new NutchJob(getConf()); sortJob.setJobName( "inject" + urlDir); FileInputFormat.addInputPath(sortJob、urlDir); sortJob.setMapperClass(InjectMapper.class); –
上記のEDITを参照してください。 –
https://github.com/mongodb/mongo-hadoop/tree/2186ef3e0025f3fe4d6233a0eb4f9e6f815d86e4 –