2017-02-07 12 views
1

現在、foreachを使用してループ内で並列処理を実行できるRクエリがあります。しかし、32コアの単一サーバーを使用して行われます。私のデータサイズのため、異なるウィンドウサーバーにコンピューティングを配布できるrパッケージを見つけようとしており、foreachを使って並列化することができます。分散処理用Rパッケージ

本当にありがとうございます。

答えて

1

SparkRが答えです。 "Announcing SparkR: R on Apache Spark"

最初にAMPLabで開発されたRパッケージであるApache Rスパンは、Apache SparkにRフロントエンドを提供し、Sparkの分散計算エンジンを使用することでRシェルから大規模なデータ分析を実行できます。

SparkR (R on Spark)も参照してください。

開始するには、Sparkクラスタをセットアップする必要があります。これはweb pageが役に立ちます。 MesosまたはYARNをクラスタマネージャとして使用しないで、Sparkのドキュメントはhereです。 Sparkをセットアップしたら、SparkRのWendy Yuのtutorialを参照してください。また、H20とSparkを統合する方法を示しています。これは「Sparkling Water」と呼ばれています。

+0

ありがとう、ブライアン。私はいくつかのウィンドウサーバー(ローカルネットワーク)を持っています。 SparkRを使用してコンピューティングをサーバーに配布するコードの記述方法を教えてください。再度、感謝します!! – user2037892

+0

私は答えをより多くの指示で更新しました。 –

2

現在、いくつかのリリースでは、Rはベースライブラリparallelで出荷されています。あなたはかなり優秀な(そしてまだ短い)pdf vignetteを読むことよりもずっと悪いことができます。一言で言えば

、あなただけ

mclapply(1:nCores, someFunction()) 

ような何かを行うことができますし、機能someFunction()nCores上で並列に実行されます。物理コアの半分のデフォルト値が良いスタートになるかもしれません。

Task View on High-Performance Computingにはさらに多くのポインタがあります。

関連する問題