は、我々は次のサンプルデータを持っていると言う:私は、サンプルファイルの各行、例えば1、2、3、0、3、1の最後の値をチェックしたいPySparkでは、値を比較して別のRDDを返す関数にRDDを送信するにはどうすればよいですか?
1,John,Martinez,North Lauderdale,20160101,1
2,John,Martinez,Plantation,20170101,2
3,John,Martinez,North Lauderdale,20161022,1
4,John,Martinez,Pembroke Pines,20181231,0
5,John,Martinez,Plantation,20190101,3
6,John,Martinez,Plantation,20200101,1
7,John,Martinez,Plantation,20210101,9
を、9
def func(input):
if str(input[5]) is "1":
rdd_trdln = input.map(lambda line: (line, "A"))
else:
rdd_trdln = input.map(lambda line: (line, "O"))
return rdd_trdln
input = sc.textFile("file.txt").map(lambda line: line.split('\t'))
return_FirstFunc = input.map(firstFunc)
私は取得していますエラー:
AttributeError: 'list' object has no attribute 'map'
のようにテストすることができます
は、公式ドキュメントからのクイックスタートガイドで読んでいくつかの努力を入れて、アドバイスの言葉です。この質問は研究に欠けており、非常に悪いです。 – eliasah
upppssssそれは@eliasah –