私たちはイントラネットサイトをクロールするためにnutchを使用しています。HDFS内にMetaDataを書き込む
インデックス作成フェーズ(indexer.javaのコードを変更しました)でxmlファイルのメタデータを抽出しています。ローカルモードで実行すると、必要なメタデータが与えられました。
ここで、nutchをクラスタモードで使用することを考えました(hadoopを使用).nutchをクラスタでクロールすると、私たちが使用したローカルモードで以前は取得していたメタデータではなくインデックスを取得できますJavaのファイルにメタを書き込むためのIOクラス)。 hadoopの場合、これをhadoopファイルシステムのioクラスに変更しました。しかし、我々はメタを得ることができません。
解決策はありますか、何か不足していますか?事前に
おかげで、 ジオ