8
私は、テキストファイルを読み込んでそれを前処理して作成しているRDDを持っています。私はそれを収集し、それをディスクやメモリ(データ全体)に保存するのではなく、むしろ他の関数をPythonで他の関数に渡したいとします。RDDをiterableに変換する:PySpark?
これはどのように可能ですか?
data = sc.textFile('file.txt').map(lambda x: some_func(x))
an_iterable = data. ## what should I do here to make it give me one element at a time?
def model1(an_iterable):
for i in an_iterable:
do_that(i)
model(an_iterable)