0
私は、Elasticsearchに多くのデータを書き込むためにSparkを使用します。しかし、それらのうちのいくつか(たいていの場合)は、このコンテキストで同じIDを持つ重複したドキュメントです。 ESにデータを書き込むには時間がかかるので、ドキュメントのIDがすでにESに存在する場合、インデックス作成をスキップする方法を知りたいですか?このようなドキュメントが存在する場合、インデックス作成ドキュメントをスキップする方法はありますか?
のような:
if doc.id in ES:
continue
else
doc.index(ES)
「唯一の問題は、」私にとって本当に大きな問題であり、どうもありがとうございました。例外を抑制する方法を知っていますか? – Mazz
@Mazz私は、ESが特定のjson本体を返すだけなので、クライアント上のエラーをどのように抑制するかを見ていきます。 –