fscrawler(https://github.com/dadoonet/fscrawler)を使用して互いに関連するデータに対して2つのファイルクローラジョブを別々に実行しています。インデックス作成(子 - 親関係またはフラットドキュメントがOK)のときにデータを結合する方法がいくつかありますので、いくつかのミドルウェアが必要です。 LogstashとES 5.0の新しいIngest Node機能の両方を見ると、カスタムプロセッサの作成をサポートするものはありません。異なるソースからのデータをインデックス時にマージする
インデックス時にこの種のマージ/リレーショナルマッピングを実行する可能性はありますか?代わりに後処理をしなくてはなりませんか?
EDIT:json形式で1つのジョブが「記事」をクロールします。記事には、複数の添付ファイル(jsonの添付ファイル配列で宣言されている)を別の場所に置くことができます。 2番目のジョブは実際の添付ファイル(たとえばpdf ...)をクロールし、TIKA処理を適用します。最終的には、添付ファイルの内容も含まれる1つの記事タイプをご希望です。
2つのクローラがどのような種類のデータを送信していて、最終的にどのようなデータを取得したいのかを少し詳しく説明できますか? – Val
質問が更新されました。 – frods
これはelasticsearchについての質問のようなものではありません.2つのソースからデータを取得し、そこからドキュメントを作成する戦略が必要なように聞こえます。 –