1

それは本当に速いですので、私はdata.tableの代わりに、plyrまたはsqldfでRstudio上で動作するように使用状況sparkdataframesでsparkRでdata.tableを使用できますか?

。さて、私は紺碧のクラスタでsparkRの作業をしています。私はsparkのデータフレームにdata.tableを使用できるかどうか、今はsqlより速いのですか?

+0

Rstudioの 'sparklyr'パッケージがあります。これは' dplyr'でスパークデータフレームを使用できるようにします。 –

+0

はい、@DavidArenburgですが、sparkデータフレームを分析するためにdata.tableパッケージとそのイディオムを使用することができますか、またはdplyrを使用する必要がありますか? – Avraham

+1

@Avraham data.tablesの著者は[h2o.ai](https://www.h2o.ai/)で働いています。これは、Rの構文が不完全で、分散バイナリサーチ([this](https://www.youtube)を参照)のようなたくさんのdata.table機能が組み込まれている(Spark IIRCに基づく)分散システムです。 com/watch?v = 5X7h1rZGVs0))。それ以外に、Spark data.frameでdata.tableをどのように扱うかは、1つのノードに集める場合を除いてはわかりません。 –

答えて

1

これはできません。 SparkDataFramesは、薄いRインタフェースを持つJavaオブジェクトです。一部の限られたケース(dapplygapply)で作業者側Rを使用することは可能ですが、data.tableでは使用できません。

+0

ありがとうございますが、データフレームを保持してdata.tableで作業する方が速いですか、SparkDataFramesを使用し、sparklyrまたはsparkSQLで作業する方が速いのですか? –

関連する問題