1
データフレームdf
には何百万行もあります。私はddply
とユーザ定義関数udf
を使用しています。RのddplyをsparkR関数に変換する
res <- ddply(df, c("id"),function(x){udf(x)}
これはかなりうまく動作しますが、それは理由udf
の私は推測する(それは約4時間かかります)非常に遅いです。多くのケースをチェックします。
私はsparkRで同じ機能を実行したいと思います。 SparkはR環境に統合されています。私はsparkRの基本操作を行うことができますが、ddply
を置き換えることができる関数は見つかりませんでした。誰にもアイデアはありますか?