2017-11-19 19 views
0

sparkRが新しく、sparkRデータフレームを列に基づいてデータフレームのリストに分割しようとしています。SparkRデータフレームをデータフレームのリストに分割する

データには、Sls_D(date), mdse_item_i(item id), co_loc_i(location id), traffic_ti_8_00, traffic_ti_9_00, traffic_ti_10_00, traffic_ti_11_00の10億レコードがあります(それぞれ特定の時間内にトラフィックはありません)。

データスナップショット:

sls_d co_loc_i mdse_item_i traffic_ti_8_00 traffic_ti_9_00 traffic_ti_10_00 traffic_ti_11_00 

    1 2016-10-21  1592  4694620    1    113    156    209 
    2 2016-10-21  1273  4694620    1    64    152    249 
    3 2016-10-21  1273 15281024    1    64    152    249 
    4 2016-10-21  1498  4694620    2    54    124    184 
    5 2016-10-21  1498 15281024    2    54    124    184 

所望の出力:

sls_d   co_loc_i mdse_item_i traffic_ti_8_00 traffic_ti_9_00 traffic_ti_10_00 traffic_ti_11_00 
2016-10-21  4  4694620    3    67    145    283 

データフレームのリスト。 xの

d.2 = split(data.2.2,list(data.2.2$mdse_item_i,data.2.2$co_loc_i,data.2.2$sls_d)) 

エラー[IND [] K]: が抽出演算子[OR サブセット()メソッドの最初のパラメータでサポートされていない述語をフィルタリング以外の表現。

Rメモリ・エラーをもたらし、並列処理の問題を敗北をベースにsparkdataframe変換ようR. をベースにsparkDataframe変換別にsparkRでこれを行うには周りにどのような方法があります。

ご協力いただきまして誠にありがとうございます。

+0

回答ありがとうございます。 – desertnaut

答えて

0

あなたの質問は多少不明です。 Sparkデータフレームの列を分割する場合は、selectを使用してください。ここでSparkR 2.2でirisデータを使用した例です。

df <- as.DataFrame(iris) # Spark dataframe 
df 
# SparkDataFrame[Sepal_Length:double, Sepal_Width:double, Petal_Length:double, Petal_Width:double, Species:string] 

# separate the length-related & width-related columns into 2 Spark dataframes: 
df_length = select(df, 'Sepal_Length', 'Petal_Length') 
df_width = select(df, 'Sepal_Width', 'Petal_Width') 

head(collect(df_width)) # for demonstration purposes only 
# Sepal_Width Petal_Width 
# 1   3.5   0.2 
# 2   3.0   0.2 
# 3   3.2   0.2 
# 4   3.1   0.2 
# 5   3.6   0.2 
# 6   3.9   0.4 

あなたは、Rリストにをこれら2 スパークデータフレームを置くことができますが、私はわからないんだけど、今どのようにこの意志便利可能なリスト操作は使用できません [コメント後の編集]:

my_list = c(df_length, df_width) 
head(collect(my_list[[1]])) 
# Sepal_Length Petal_Length 
# 1   5.1   1.4 
# 2   4.9   1.4 
# 3   4.7   1.3 
# 4   4.6   1.5 
# 5   5.0   1.4 
# 6   5.4   1.7  
関連する問題