2015-09-24 16 views
8

私は、テキストファイルを読み込んでそれを前処理して作成しているRDDを持っています。私はそれを収集し、それをディスクやメモリ(データ全体)に保存するのではなく、むしろ他の関数をPythonで他の関数に渡したいとします。RDDをiterableに変換する:PySpark?

これはどのように可能ですか?

data = sc.textFile('file.txt').map(lambda x: some_func(x)) 

an_iterable = data. ## what should I do here to make it give me one element at a time? 
def model1(an_iterable): 
for i in an_iterable: 
    do_that(i) 

model(an_iterable) 

答えて