私はelasticsearchにインデックスごとに大量の1日のデータ〜160GBのインデックスを作成しています。私は私の更新操作は、毎秒16000本のラインで起こっ始める私はフォーマットの弾性検索バルクの更新が極端に遅い
id1,data1
id1,data2
id2,data1
id2,data2
id2,data3
.
.
.
ある少量のデータ(〜16ギガバイト)と指数のほぼすべてのドキュメントを更新する必要があり、この場合に直面していますし、 5分以上経過すると、1秒間に1000本のラインになり、それ以降は上がらない。このデータの16ギガバイトのための更新プロセスは、それが起こるために160ギガバイトの私の全体のインデックス作成にかかる時間よりも、現在長い
output
{
elasticsearch {
action => "update"
doc_as_upsert => true
hosts => ["host1","host2","host3","host4"]
index => "logstash-2017-08-1"
document_id => "%{uniqueid}"
document_type => "daily"
retry_on_conflict => 2
flush_size => 1000
}
}
私が持っている最適化を次のように更新操作のための私のconfファイルは、現在見え
ここhttps://www.elastic.co/guide/en/elasticsearch/guide/current/indexing-performance.htmlの提案に基づいて、私のクラスタ内のインデックスをスピードアップするために行われている
- 設定「indices.store.throttle.type」:「なし」
- インデックス「REFRESH_INTERVAL」:「-1」
d2.8xlarge EC2インスタンスの4つのインスタンスでクラスタを実行しています。私は各ノードに30GBのヒープを割り当てました。 更新が起きている間はほとんどCPUが使用されておらず、負荷も非常に少なくなっています。
すべてにかかわらず、更新は非常に遅いです。この問題を引き起こしていることが分かりません。スレッドプールのデータを見ると、バルク操作で動作するスレッドの数は常に高くなっています。
この問題に関するすべてのヘルプはここにしようとするルールアウトのカップルがあり、事前
あなたはどの言語を使用していますか?どこかでメモリリークがあるように聞こえます。おそらくファイルが残っていますか? – khuderm
私は同じ問題に直面しています。私たちはあなたの遅さを解決することができますか? –