Python Spark：RDDの特定の列をテキストファイルに書き込む

RDDの特定の列をテキストファイルに書きたい。現在、私はそれを行うためにパンダを使用しています。Python Spark：RDDの特定の列をテキストファイルに書き込む

df_2016_pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas()

し、テキストファイルにこのように

title_string = ''.join(df_2016_pandas.title.tolist())

output_file.write(title_string)

を書くために、文字列に列を変換し、私は、同じテキストファイルにcontentとabstractを書いています（mtテキストファイルをtitle、content、で構成したいRDDからの）。

データが膨大なので（28Mレコード）、私はパンダを使用することは非効率的だと考えます。私はspark（python）でそれを行う方法、すなわちRDDの特定の列（タプル）をテキストファイルに書き込む方法はありますか？

出典

2017-06-22 kartik

質問はあまりにもはっきりしていますが、説明から、選択した列だけを出力ファイルに入れる必要があるようです。 PySparkとPandasの統合は好ましくありません。あなたは以下を使って直接dfを保存することができます。これはパーティションにデータを格納し、ファイルを連結してHDFSからダウンロードします。

#Tested on pyspark 1.6 
df_2016.select('title', 'abstract', 'content').write.mode("overwrite").format("parquet").save("name_file")

出典

2017-06-23 08:51:23

Python Spark：RDDの特定の列をテキストファイルに書き込む

答えて

関連する問題