分散処理用Rパッケージ

現在、foreachを使用してループ内で並列処理を実行できるRクエリがあります。しかし、32コアの単一サーバーを使用して行われます。私のデータサイズのため、異なるウィンドウサーバーにコンピューティングを配布できるrパッケージを見つけようとしており、foreachを使って並列化することができます。分散処理用Rパッケージ

本当にありがとうございます。

出典

2017-02-07 user2037892

SparkRが答えです。 "Announcing SparkR: R on Apache Spark"：

最初にAMPLabで開発されたRパッケージであるApache Rスパンは、Apache SparkにRフロントエンドを提供し、Sparkの分散計算エンジンを使用することでRシェルから大規模なデータ分析を実行できます。

SparkR (R on Spark)も参照してください。

開始するには、Sparkクラスタをセットアップする必要があります。これはweb pageが役に立ちます。 MesosまたはYARNをクラスタマネージャとして使用しないで、Sparkのドキュメントはhereです。 Sparkをセットアップしたら、SparkRのWendy Yuのtutorialを参照してください。また、H20とSparkを統合する方法を示しています。これは「Sparkling Water」と呼ばれています。

出典

2017-02-07 16:17:01

ありがとう、ブライアン。私はいくつかのウィンドウサーバー（ローカルネットワーク）を持っています。 SparkRを使用してコンピューティングをサーバーに配布するコードの記述方法を教えてください。再度、感謝します！！ – user2037892

私は答えをより多くの指示で更新しました。 –

現在、いくつかのリリースでは、Rはベースライブラリparallelで出荷されています。あなたはかなり優秀な（そしてまだ短い）pdf vignetteを読むことよりもずっと悪いことができます。一言で言えば

、あなただけ

mclapply(1:nCores, someFunction())

ような何かを行うことができますし、機能someFunction()はnCores上で並列に実行されます。物理コアの半分のデフォルト値が良いスタートになるかもしれません。

Task View on High-Performance Computingにはさらに多くのポインタがあります。

出典

2017-02-07 16:25:11

答えて

関連する問題