entries = sc.textFile(...).map(lambda line: line.split("\t")).map(lambda row:(int(row[0]),row[1]))
some_set = set()
for entry in entries.collect():
some_set.add(entry[1])
上記を行うには、より良い方法がありますか?私はちょうど各エントリのi番目の要素を取得したい。だから、基本的にあなたが記述するものRDDのすべてのx [i]番目の要素を取得する
あなたが値を収集しているとき、コレクト避けたいのはなぜ? 'entires.map(x => x [0])。collect()' –
を実行してください。私は間違って質問を枠組みしました。 RDD全体をドライバにロードせずにx [i]をセット/リストに格納できるかどうかを知りたい。 –