ウェブリンクをクロールし、データをsolrに正常にクロールします。
しかし、私は、クロールしてSolrにインデックスするすべてのリンクのpdfファイルを作成する必要があります。 私はファントムが私にpdfを与えることは知っていますが、どこにNutchのファントムを構成するのか分かりませんでした。 NutchのFetcherクラスをカスタマイズする必要があることがわかりましたが、カスタマイズ方法はわかりませんでした。いずれか1つお助けください ください。私は最後の2週間からこれに固執しています。Nutch Fetcherクラスをカスタマイズすることは可能ですか?
0
A
答えて
0
crawdingをcsv形式でダンプしましたか?私はあなたがあなたの仕事を達成することができたと思う(これは、NutchによってクロールされるすべてのURLのリストを取得することである)。
あなたは、このコマンドはあなたにNutchの中にフェッチしていない/フェッチされたすべてのURLを与える./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv
を使用することができます。 これをcsvに入れたら、簡単にpdfとして書き出すことができます。コマンドの詳細については
+0
実際に私の仕事は、nutchによってクロールされるすべてのURLのpdfファイルを作成する必要があることです。また、URLのpdfを作成するときに、そのPDFパスをHBASEに保存する必要があり、それがsolrのインデックスになります。 –
を見て、あなたがもう少し明確にしてくださいでした、あなたがここで達成しようとしているかのタスクを理解することは困難です。あなたは今まであなたが這い上がってきたすべてのURLのリストを望んでいますか? –
@SujenShah私はnutchによってクロールされるすべてのURLのpdfを作成します。だから私はどのクラスで私はpdfを作成するように変更する必要があるかを知る必要があります(私はpdfを作成するためにphantomjsを使用しています)。私は私がpdfを作成するために任意のクラスにコードを入れる必要があることを知っていますが、クラスを見つける。 –