sparkRが新しく、sparkRデータフレームを列に基づいてデータフレームのリストに分割しようとしています。SparkRデータフレームをデータフレームのリストに分割する
データには、Sls_D(date), mdse_item_i(item id), co_loc_i(location id), traffic_ti_8_00, traffic_ti_9_00, traffic_ti_10_00, traffic_ti_11_00
の10億レコードがあります(それぞれ特定の時間内にトラフィックはありません)。
データスナップショット:
sls_d co_loc_i mdse_item_i traffic_ti_8_00 traffic_ti_9_00 traffic_ti_10_00 traffic_ti_11_00
1 2016-10-21 1592 4694620 1 113 156 209
2 2016-10-21 1273 4694620 1 64 152 249
3 2016-10-21 1273 15281024 1 64 152 249
4 2016-10-21 1498 4694620 2 54 124 184
5 2016-10-21 1498 15281024 2 54 124 184
所望の出力:
sls_d co_loc_i mdse_item_i traffic_ti_8_00 traffic_ti_9_00 traffic_ti_10_00 traffic_ti_11_00
2016-10-21 4 4694620 3 67 145 283
データフレームのリスト。 xの
d.2 = split(data.2.2,list(data.2.2$mdse_item_i,data.2.2$co_loc_i,data.2.2$sls_d))
エラー[IND [] K]: が抽出演算子[OR サブセット()メソッドの最初のパラメータでサポートされていない述語をフィルタリング以外の表現。
Rメモリ・エラーをもたらし、並列処理の問題を敗北をベースにsparkdataframe変換ようR. をベースにsparkDataframe変換別にsparkRでこれを行うには周りにどのような方法があります。
ご協力いただきまして誠にありがとうございます。
回答ありがとうございます。 – desertnaut