現在、foreachを使用してループ内で並列処理を実行できるRクエリがあります。しかし、32コアの単一サーバーを使用して行われます。私のデータサイズのため、異なるウィンドウサーバーにコンピューティングを配布できるrパッケージを見つけようとしており、foreachを使って並列化することができます。分散処理用Rパッケージ
本当にありがとうございます。
現在、foreachを使用してループ内で並列処理を実行できるRクエリがあります。しかし、32コアの単一サーバーを使用して行われます。私のデータサイズのため、異なるウィンドウサーバーにコンピューティングを配布できるrパッケージを見つけようとしており、foreachを使って並列化することができます。分散処理用Rパッケージ
本当にありがとうございます。
SparkRが答えです。 "Announcing SparkR: R on Apache Spark":
最初にAMPLabで開発されたRパッケージであるApache Rスパンは、Apache SparkにRフロントエンドを提供し、Sparkの分散計算エンジンを使用することでRシェルから大規模なデータ分析を実行できます。
SparkR (R on Spark)も参照してください。
開始するには、Sparkクラスタをセットアップする必要があります。これはweb pageが役に立ちます。 MesosまたはYARNをクラスタマネージャとして使用しないで、Sparkのドキュメントはhereです。 Sparkをセットアップしたら、SparkRのWendy Yuのtutorialを参照してください。また、H20とSparkを統合する方法を示しています。これは「Sparkling Water」と呼ばれています。
現在、いくつかのリリースでは、Rはベースライブラリparallel
で出荷されています。あなたはかなり優秀な(そしてまだ短い)pdf vignetteを読むことよりもずっと悪いことができます。一言で言えば
、あなただけ
mclapply(1:nCores, someFunction())
ような何かを行うことができますし、機能someFunction()
はnCores
上で並列に実行されます。物理コアの半分のデフォルト値が良いスタートになるかもしれません。
Task View on High-Performance Computingにはさらに多くのポインタがあります。
ありがとう、ブライアン。私はいくつかのウィンドウサーバー(ローカルネットワーク)を持っています。 SparkRを使用してコンピューティングをサーバーに配布するコードの記述方法を教えてください。再度、感謝します!! – user2037892
私は答えをより多くの指示で更新しました。 –