シードURLに沿ってメタデータを渡す現在、検索バックエンド(現在はElasticSearch)の各URLのインデックスデータにシードURLを含めるようにしています。Nutch 1.X REST APi
私はthis previous questionで、各シードでメタデータを渡すことができ、私の必要性に合っていることがわかりました。しかし、私はcreate my seed listにREST APIを使用しており、seedUrls
パラメータでメタデータが許可されていないようです。
誰でもREST APIでこれを実行しようとしましたか?
これを達成する別の方法はありますか? NutchDocumentのシードURLをインデックスに追加するカスタムIndexingFilterを書くことができましたが、この時点でシードURLは私が見たものから利用できません。
ありがとうございます!
あなたの答えをありがとう。 – ThomasC
こんにちは@ThomasCはhttps://github.com/jorgelbg/nutch/tree/NUTCH-2353をご覧ください。また、JIRA https://issues.apache.org/jira/browse/NUTCH-2353の関連する問題は基本的にはシードファイルにメタデータを追加する方法は、JIRAの問題で示された例のような要求であることがあります。 –
この素晴らしい追加のホルヘに感謝!私の回避策は、REST APIを使用する代わりにシードファイルを自分で作成することでしたが、これはより簡単で一貫性があります。 – ThomasC