2017-06-22 9 views
0

RDDの特定の列をテキストファイルに書きたい。 現在、私はそれを行うためにパンダを使用しています。Python Spark:RDDの特定の列をテキストファイルに書き込む

df_2016_pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas()

し、テキストファイルにこのように

title_string = ''.join(df_2016_pandas.title.tolist())

output_file.write(title_string)

を書くために、文字列に列を変換し、私は、同じテキストファイルにcontentabstractを書いています(mtテキストファイルをtitlecontent、で構成したいRDDからの)。

データが膨大なので(28Mレコード)、私はパンダを使用することは非効率的だと考えます。 私はspark(python)でそれを行う方法、すなわちRDDの特定の列(タプル)をテキストファイルに書き込む方法はありますか?

答えて

0

質問はあまりにもはっきりしていますが、説明から、選択した列だけを出力ファイルに入れる必要があるようです。 PySparkとPandasの統合は好ましくありません。あなたは以下を使って直接dfを保存することができます。これはパーティションにデータを格納し、ファイルを連結してHDFSからダウンロードします。

#Tested on pyspark 1.6 
df_2016.select('title', 'abstract', 'content').write.mode("overwrite").format("parquet").save("name_file") 
関連する問題