0
ファイル私はSparkContextを通じてCSVファイルをロードしようとしていますし、ロードした後、私はCSVファイルの必要な列上の任意のRDD操作を実行する必要があります。 私はcsvファイルを読み込み、JavaRDDから必要な列を取得できました。今私は、これらの列で任意のRDD操作を実行する必要があります。スパークRDD機能が
これは私がこれまで試してみました何..です
JavaRDD<String> diskfile = sc.textFile("/Users/hadoop/Downloads/Data_1.csv");
JavaRDD<Object> newRDD = diskfile.cache().map(lines -> Arrays.asList(new String[]{
lines.split(",")[0],
lines.split(",")[1]
}
));
System.out.println(newRDD.collect());
newRDD.collect()
版画0列目およびCSVデータの1列目。今私はnewRDD
でRDD操作を実行する必要があります。
ありがとうございます。
応答のおかげで、私はRDD操作について知っています。ここで私の要件は、csvデータの2つの列に対してrdd操作を適用することです。 – user4342532
重量の操作をお探しですか? –
私はcolumn1の最大値に応じてcolumn2の値を返す必要があります。 – user4342532