4台のDSE 5.0クラスタがあります。データの取り込み中、これらのマシンの1つは大部分のデータ(100G)を保存し、残りの3つは保存したデータ量を大幅に削減しました(それぞれ約15G)。私はなぜこれが起こったのか分かりませんし、調査を計画しており、おそらく別の質問で尋ねます。Datastax Enterprise 5.0クラスタの再バランスの試行に失敗しました。
ここで、クラスターの再バランスを試みます。私が認識している唯一の方法は、OpsCenterのCluster Actions
- >Rebalance
をクリックすることです。リバランスが開始され、再現性、このエラーが発生してから約5分後に中止されます:リバランスプレビューで提案されているよう
Rebalance Failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is:
java.net.SocketTimeoutException: Read timed out
データの一部が送信され、そのほとんどではありません。
イベントログ:
Error Rebalance failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: java.net.SocketTimeoutException: Read timed out admin
Info Moving node xx.xx.xx.xx from token 5848419665553670365 to 2542108353485192999 NODE-04
Info Starting rebalance
理由とどのように私はそれを調査して修正すれば何ができますか?
クラスタは、Azureの4台の専用マシンに配置されています。
これはデータの収集に関する詳細を教えてください。大量のデータや通常の操作について話していますか?私はちょうどこれがなぜ最初に起こったのかもしれないのかをより良く理解しようとしています。 @helmserは、正常なデータモデルを持つ通常のユースケースでは、データを均等に分散する必要があります。バランスジョブが失敗しましたが、DataStaxのアカウントマネージャーに連絡して、技術的な人たちと連絡を取り合うことは、バグであれば診断して解決する。 – mando222
@ mando222 - PKは残りのデータから生成された単純なSHAハッシュなので、よく分散されたPKを仮定しました。まだ実際の流通を適切に分析することはできませんでした。とにかく、再バランスの失敗は私にとってもバグのように見えます。 – kostja