1
PySpark API .count()
が返す値には限界がありますか?Apache Sparkの `count()`によって返される値には制限がありますか
たとえば、C
は非常に大きなRDDであるとします。以下のpysparkコードスニペットです:
t = C.count()
どのような状況下でt
の値が無効または未定義のでしょうか? code自体から
PySpark API .count()
が返す値には限界がありますか?Apache Sparkの `count()`によって返される値には制限がありますか
たとえば、C
は非常に大きなRDDであるとします。以下のpysparkコードスニペットです:
t = C.count()
どのような状況下でt
の値が無効または未定義のでしょうか? code自体から
:
def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum
あなたが見ることができるよう、トンのためのリターンを数えるLong
ので、最大サイズは64 bit signed value = -9223372036854775808 to 9223372036854775807 i.e. (-2^63 to 2^63-1, inclusive)
または他の言葉でカウントしているLong
の定義によって制限されますが上がることができます2^64 = 18,446,744,073,709,551,616になる。