"PointFeature"オブジェクトを使用するspark用サードパーティパッケージを使用しています。私はcsvファイルを取得し、要素を各行をこれらのPointFeatureオブジェクトの配列に配置しようとしています。オブジェクトの配列へのCSV
私の実装のためのPointFeatureコンストラクタは次のようになります。_c1、_c2、および_c3は私のCSVの列であり、ダブルスを表す
Feature(Point(_c1, _c2), _c3)
。ここで
私の現在の試みです:
val points: Array[PointFeature[Double]] = for{
line <- sc.textFile("file.csv")
point <- Feature(Point(line._c1,line._c2),line._c3)
} yield point
は私のエラーが列
<console>:36: error: value _c1 is not a member of String
point <- Feature(Point(line._c1,line._c2),line._c3.toDouble)
^
<console>:36: error: value _c2 is not a member of String
point <- Feature(Point(line._c1,line._c2),line._c3.toDouble)
^
<console>:36: error: value _c3 is not a member of String
point <- Feature(Point(line._c1,line._c2),line._c3.toDouble)
^
を参照するとき、それはAの要素であるかのように私は、文字列を参照していますので、これは明らかで現れますDataFrame。私は、このループ形式でDataFramesを操作する方法があるのか、または各行をdoubleのListに分割する方法があるのだろうかと思います。多分私はRDDが必要でしょうか?
また、これは配列を生成するとは確信していません。実は、私はここで
アマゾンEMRにスパーク2.1.0を使用しています
...それはRDDを返します疑う私から引き出されている他のいくつかの質問です:
How to read csv file into an Array of arrays in scala
Splitting strings in Apache Spark using Scalaあなたはを設定することができ
How to iterate records spark scala?