2017-01-13 5 views
0

シードURLに沿ってメタデータを渡す現在、検索バックエンド(現在はElasticSearch)の各URLのインデックスデータにシードURLを含めるようにしています。Nutch 1.X REST APi

私はthis previous questionで、各シードでメタデータを渡すことができ、私の必要性に合っていることがわかりました。しかし、私はcreate my seed listにREST APIを使用しており、seedUrlsパラメータでメタデータが許可されていないようです。

誰でもREST APIでこれを実行しようとしましたか?

これを達成する別の方法はありますか? NutchDocumentのシードURLをインデックスに追加するカスタムIndexingFilterを書くことができましたが、この時点でシードURLは私が見たものから利用できません。

ありがとうございます!

答えて

1

現時点では、REST APIは関連するメタデータの処理をサポートしていないようです。私たちはこれを達成するために大きな努力を払う必要はないと考えています。基本的にJSONペイロードを処理し、対応するエンティティSeedUrlをカスタマイズしてメタデータを保持し、もちろんwriteToSeedFileメソッドをカスタマイズする必要があります。

IndexingFilterを書くあなたのアプローチはうまくいかないかもしれませんが。シードURLは、クロールのライフサイクルの初めに投入され、IndexingFilterは、あなたのストレージにインデックスを作成するものを選択することによってのみ責任を負います。

+0

あなたの答えをありがとう。 – ThomasC

+1

こんにちは@ThomasCはhttps://github.com/jorgelbg/nutch/tree/NUTCH-2353をご覧ください。また、JIRA https://issues.apache.org/jira/browse/NUTCH-2353の関連する問題は基本的にはシードファイルにメタデータを追加する方法は、JIRAの問題で示された例のような要求であることがあります。 –

+0

この素晴らしい追加のホルヘに感謝!私の回避策は、REST APIを使用する代わりにシードファイルを自分で作成することでしたが、これはより簡単で一貫性があります。 – ThomasC