RDDの特定の列をテキストファイルに書きたい。 現在、私はそれを行うためにパンダを使用しています。Python Spark:RDDの特定の列をテキストファイルに書き込む
df_2016_pandas = df_2016.select('id', 'source', 'date', 'title', 'abstract', 'content').toPandas()
し、テキストファイルにこのように
title_string = ''.join(df_2016_pandas.title.tolist())
output_file.write(title_string)
を書くために、文字列に列を変換し、私は、同じテキストファイルにcontent
とabstract
を書いています(mtテキストファイルをtitle
、content
、で構成したいRDDからの)。
データが膨大なので(28Mレコード)、私はパンダを使用することは非効率的だと考えます。 私はspark(python)でそれを行う方法、すなわちRDDの特定の列(タプル)をテキストファイルに書き込む方法はありますか?