Datastax Enterprise 5.0クラスタの再バランスの試行に失敗しました。

4台のDSE 5.0クラスタがあります。データの取り込み中、これらのマシンの1つは大部分のデータ（100G）を保存し、残りの3つは保存したデータ量を大幅に削減しました（それぞれ約15G）。私はなぜこれが起こったのか分かりませんし、調査を計画しており、おそらく別の質問で尋ねます。Datastax Enterprise 5.0クラスタの再バランスの試行に失敗しました。

ここで、クラスターの再バランスを試みます。私が認識している唯一の方法は、OpsCenterのCluster Actions - >Rebalanceをクリックすることです。リバランスが開始され、再現性、このエラーが発生してから約5分後に中止されます：リバランスプレビューで提案されているよう

Rebalance Failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: 
java.net.SocketTimeoutException: Read timed out

データの一部が送信され、そのほとんどではありません。

イベントログ：

Error Rebalance failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: java.net.SocketTimeoutException: Read timed out  admin 
Info Moving node xx.xx.xx.xx from token 5848419665553670365 to 2542108353485192999 NODE-04 
Info Starting rebalance

理由とどのように私はそれを調査して修正すれば何ができますか？

クラスタは、Azureの4台の専用マシンに配置されています。

出典

2016-10-17 kostja

これはデータの収集に関する詳細を教えてください。大量のデータや通常の操作について話していますか？私はちょうどこれがなぜ最初に起こったのかもしれないのかをより良く理解しようとしています。 @helmserは、正常なデータモデルを持つ通常のユースケースでは、データを均等に分散する必要があります。バランスジョブが失敗しましたが、DataStaxのアカウントマネージャーに連絡して、技術的な人たちと連絡を取り合うことは、バグであれば診断して解決する。 – mando222

@ mando222 - PKは残りのデータから生成された単純なSHAハッシュなので、よく分散されたPKを仮定しました。まだ実際の流通を適切に分析することはできませんでした。とにかく、再バランスの失敗は私にとってもバグのように見えます。 – kostja

データロード後にクラスタを再調整する必要はありません。データモデルを深く掘り下げ、パーティションキーがリング全体に均等にデータを分配するものであることを確認したいと思うかもしれません。この場合、私はホットスポットを疑っている。

出典

2016-10-18 01:38:28 helmser

helmserさん、ありがとうございます。私はPKの分布を分析する必要があります。しかし、これは疑問に答えるものではありません。リバランス機能の不具合には他の理由もあると思います。結局のところ、それは正式なUIで提供されています。おそらくこの状況のために、私はより良い仕事をするべきだと思っていました。タイムアウトについて何ができるか知っていますか？ – kostja

Datastax Enterprise 5.0クラスタの再バランスの試行に失敗しました。

答えて

関連する問題