は、ここで私はselect count(1) from star_event
を実行しようとしていカウントクエリは
CREATE TABLE star.star_event (
eventnumber int,
primarytracks int,
prodtime double,
antinucleus int,
eventfile int,
eventtime double,
histfile bigint,
multiplicity int,
nabovelb int,
nbelowlb int,
nlb int,
pt double,
runnumber int,
vertexx double,
vertexy double,
vertexz double,
PRIMARY KEY (eventnumber, primarytracks, prodtime)
) WITH CLUSTERING ORDER BY (primarytracks ASC, prodtime ASC)
私のテーブルで設定します。少なくとも少量のデータに対しては、それがcassandraでサポートされている有効なクエリであることはわかっています。しかし、巨大なデータセットではうまくいかないようです。
は常にReadTimeout: Error from server: code=1200 [Coordinator node timed out
waiting for replica nodes' responses] message="Operation timed out -
received only 0 responses." info={'received_responses': 0, 'required_responses': 1, 'consistency': 'ONE'}
はまだcassandra.yaml
運にデフォルトReadTimeout
値を増加エラーを取得します。利用可能な回避策は何ですか。
ニースポイントは非常に役に立ちます。そうすれば、スパークがこのprobsの代用品になることができます。私はこのことについてはっきりしていません。もし、cassandra自身がそのような質問を処理できないなら、それは火花でしょうか? – curiousguy
Sparkは実際には小さな行で行を引き出し、数えます:)これはちょっと変わったかもしれませんが、私は同意しますが、データの量が大きければこれは単なる要求ではうまく機能しません側の何か。分散数は常に問題になります。 –
興味深い私はこれを確かに試み、あなたに戻ってきます。私に方向性を示してくれてありがとう:) – curiousguy