1
にベクトルのスパーク書く私は、次ののJava読むとHDFS
public void writePointsToFile(Path path, FileSystem fs, Configuration conf,
List<Vector> points) throws IOException {
SequenceFile.Writer writer = SequenceFile.createWriter(conf,
Writer.file(path), Writer.keyClass(LongWritable.class),
Writer.valueClass(Vector.class));
long recNum = 0;
for (Vector point : points) {
writer.append(new LongWritable(recNum++), point);
}
writer.close();
}
(私はまだそれをテストすることはできません行うための正しい方法を使用していることを確認していない)
としてのベクトルの(org.apache.spark.mllib.linalg.Vector)
HDFS
に書きました
今度はJavaRDD<Vector>
というファイルを読む必要があります。なぜならSpark Clustering K-mean
で使用したいからですが、これを行う方法がわからないからです。
あなたの答えをありがとう、あなたはJavaRDDにJavaPairRDD を変換する方法を私にしてください伝えることができますか。? –
Emad
マップ関数の例を追加してJavaRDD –