それは本当に速いですので、私はdata.tableの代わりに、plyrまたはsqldfでRstudio上で動作するように使用状況sparkdataframesでsparkRでdata.tableを使用できますか?
。さて、私は紺碧のクラスタでsparkRの作業をしています。私はsparkのデータフレームにdata.tableを使用できるかどうか、今はsqlより速いのですか?
それは本当に速いですので、私はdata.tableの代わりに、plyrまたはsqldfでRstudio上で動作するように使用状況sparkdataframesでsparkRでdata.tableを使用できますか?
。さて、私は紺碧のクラスタでsparkRの作業をしています。私はsparkのデータフレームにdata.tableを使用できるかどうか、今はsqlより速いのですか?
これはできません。 SparkDataFrames
は、薄いRインタフェースを持つJavaオブジェクトです。一部の限られたケース(dapply
、gapply
)で作業者側Rを使用することは可能ですが、data.table
では使用できません。
ありがとうございますが、データフレームを保持してdata.tableで作業する方が速いですか、SparkDataFramesを使用し、sparklyrまたはsparkSQLで作業する方が速いのですか? –
Rstudioの 'sparklyr'パッケージがあります。これは' dplyr'でスパークデータフレームを使用できるようにします。 –
はい、@DavidArenburgですが、sparkデータフレームを分析するためにdata.tableパッケージとそのイディオムを使用することができますか、またはdplyrを使用する必要がありますか? – Avraham
@Avraham data.tablesの著者は[h2o.ai](https://www.h2o.ai/)で働いています。これは、Rの構文が不完全で、分散バイナリサーチ([this](https://www.youtube)を参照)のようなたくさんのdata.table機能が組み込まれている(Spark IIRCに基づく)分散システムです。 com/watch?v = 5X7h1rZGVs0))。それ以外に、Spark data.frameでdata.tableをどのように扱うかは、1つのノードに集める場合を除いてはわかりません。 –