2016-11-30 13 views
3

SparkR内でMXNetのような標準的なRパッケージを使用したい場合、これは可能ですか?標準CRANパッケージは、ローカルとスパークのデータフレームを考慮せずに、Spark分散環境内で使用できますか。 RおよびSparkの大規模なデータセットを使用してSparkデータフレームを使用し、Dataframeをホワイトボックス化し、ローカルのdata.frameに変換して標準のCRANパッケージを使用する戦略はありますか?私が気づいていない別の戦略はありますか?CRarkパッケージをSparkR内で使用する

おかげ

答えて

2

は標準CRANパッケージには、Sparkのデータフレーム対ローカルを考慮せずにスパーク分散環境内で使用することができます。

いいえ、できません。

RおよびSparkの大規模なデータセットを使用してSparkデータフレームを使用し、Dataframeをホワイトピックしてからローカルdata.frameに変換する戦略があります。

悲しいことに、ほとんどの場合、これはあなたが行うことです。

私が気づいていない別の戦略はありますか?

dapplyおよびgapply Spark 2.0の関数は、パーティションまたはグループに任意のRコードを適用できます。

+0

ありがとうございました。私はdapplyとgapply関数を調べます。 – user3220598

0

特定の操作では、ローカルRデータフレームとSparkデータフレームに対して統一構文を使用するパッケージを使用できます。たとえば、Sparklyrを使用した場合、dplyrは、標準のデータ処理をSparkクラスタに戻すことができます。ローカル操作に必要なときにのみデータを取得します。

関連する問題