0
RDDのキーと値のペアの列[2]の値を文字列から整数に変換しようとしているので、それらを合計して平均を計算できます。 KVPのRDD値をPySparkの整数に変換する
私は列には[2]に自動的にマッピングフェーズの間の整数として表示していしようとしましたが、私はエラーを取得しています、「TypeError例外: 『タイプ』オブジェクトが属性を持っていない 『のGetItem』」textfile = sc.textFile("hdfs://...csv")
test = textfile.map(lambda x: (x.split(",")[1], x.split(",")(int[2]))
は何がありますPySpark RDDで列[2]の値を整数として変換/マップする正しい方法は?
あなたのエラーが原因で 'int型のものであり、容易に計算することができる[2]' - あなたは第三項目を取得しようとしています意味のないデータ型から(これはエラーメッセージのことです)。 'test = textfile.map(lambda x:(x.split("、 ")[1]、int(x.split("、 ")[2]))'つまり、 2番目の要素は 'x.split("、 ")'を 'int'にします。また、Pythonは0でインデックス付けされているので、コードは' len(x.split( "、"))> = 3' – pault
完璧に働いて、ありがとう! – Learner