プロジェクトでpython3を使ってsparkを使っているときに問題が発生しました。 Key-Valueペアでは、('1','+1 2,3')
のように、"2,3"
という部分が確認したいコンテンツでした。だから私は、次のコードを書いた:('2','+1')
:そのような行った後
(このキーと値のペアがp_listと呼ばれるRDDに保存されたと仮定)pysparkでsparkの "for"ループを使うにはどうすればいいですか
def add_label(x):
label=x[1].split()[0]
value=x[1].split()[1].split(",")
for i in value:
return (i,label)
p_list=p_list.map(add_label)
を、私は結果を得ることができます('2','+1')
と('3','+1')
である必要があります。マップ操作の "for"ループが一度だけだったようです。どうすれば複数回することができますか?または、私はマップ操作や操作を減らすために "for"ループのような関数を実装するために使用できる他の方法はありますか?
私が本当に扱っているのは大きなデータセットです。だから私はAWSクラスタを使用して、並列化でループを実装する必要があります。クラスタ内のスレーブノードはループを理解していないようです。スパークRDD機能を使って、そのことを知らせるにはどうすればいいですか?または、どのように別のパイプラインの方法でこのようなループ操作を行うことができますか(これはSpark RDDの主な設計の1つです)。
私はこの質問からsparkタグを削除したいと思うのですが、これは実際には 'RDD.map'以外のスパーク特有のものではないからです。 –
私のプロジェクトの詳細は言及しません。それは本当にスパークのアプリケーションです。上記の問題は、私が会った主な問題の要約に過ぎません。 rddに保存されている( '1'、 '+ 1 2,3などの)キーと値のペアがあります。私はラベルと次の子ノードを比較し、すべてのキーと値のペアについてそれぞれ(子ノード、ラベル)を返す必要があります。操作全体は、RDD.map()。filter()。reduceByKey()などがあります。スパーククラスタを使用してAWS上で実行する必要があります。 – Linghao
'rdd.foreach()'を試してみましたか? – Kristian