機械学習パイプラインで使用するためのRDD[LabeledPoint]
があります。 RDD
をDataSet
に変換するにはどうすればよいですか?新しいspark.ml
apisにはDataset
形式の入力が必要です。RDDからスパークデータセットを作成する方法
12
A
答えて
14
これは、余分なステップを通過する回答です。DataFrame
です。私たちは、DataFrame
を作成するためにSQLContext
を使用し、目的のオブジェクト型を使用してDataSet
を作成 - LabeledPoint
この場合には:
val sqlContext = new SQLContext(sc)
val pointsTrainDf = sqlContext.createDataFrame(training)
val pointsTrainDs = pointsTrainDf.as[LabeledPoint]
更新エヴァーSparkSession
のことを聞きましたか? (これまで私はいなかった..)
明らかに、SparkSession
は、であり、Spark 2.0.0の優先ウェイ(TM)であり、今後の進歩です。ここでは新しい(スパーク)世界秩序のための更新されたコードは次のとおりです。
我々が達成した(単純な1 zero323 @そのクレジットの)以下のアプローチの両方に
お知らせに近づく2.0.0+スパークSQLContext
アプローチと比較して重要な節約:最初にDataFrame
を作成する必要はありません。 How to store custom objects in Dataset?によって:@ zero323
val spark: org.apache.spark.sql.SparkSession = ???
import spark.implicits._
val trainDs = training.toDS()
従来のスパーク1.Xおよびそれ以前のアプローチ
val sqlContext = new SQLContext(sc) // Note this is *deprecated* in 2.0.0
import sqlContext.implicits._
val training = splits(0).cache()
val test = splits(1)
val trainDs = training**.toDS()**
も参照してくださいにスパーク2.0.0+クレジットのための
val sparkSession = SparkSession.builder().getOrCreate()
val pointsTrainDf = sparkSession.createDataset(training)
val model = new LogisticRegression()
.train(pointsTrainDs.as[LabeledPoint])
第二の方法尊敬されている@ zero323。
関連する問題
- 1. RDDからRDDのコレクションを作成する方法は?
- 2. JavaでSparseVectorsのRDDからDataFrameを作成する方法
- 3. 単語のリストのRDDからデータフレームを作成する方法
- 4. 行からRDDを作成する方法
- 5. Pythonで別のrddから新しいrddを作成する
- 6. RDD [文字列]から特定のフィールドのhashMapを作成する方法は?
- 7. スパーク:リストからオブジェクトRDDを作成<Object> RDD
- 8. spark:scala - RDDから別のRDDにコレクションを変換する方法
- 9. SparkでRDDを作成するさまざまな方法
- 10. spark RDDでパーティションを作成する方法
- 11. マップ機能内でRDDを作成する方法
- 12. Spark 1.6.1:RDDからDataFrameを作成する[配列[エラー]]
- 13. オブジェクトのRDDから列データを作成する
- 14. RDDから作成したDataFrameでregisterTempTableが失敗する
- 15. アレイのRDDを作成
- 16. Spark RDDを使用して別のRDDを作成またはマッピングする方法
- 17. scipyスパース行列からスパースRDDを作成
- 18. スパークパーティション:Hiveパーティションは作成せずにRDDパーティションを作成する
- 19. Pyspark RDDから複数RDDへのRDD
- 20. pysparkからRDD依存関係を取得する方法は?
- 21. RDD [ListBuffer]のListBufferからオブジェクトを取り除き、RDDに新しいエントリを作成するスパーク変換
- 22. HDFSディレクトリからファイルを読み込み、PythonでSparkでRDDを作成する
- 23. ScalaとSpark、rddから辞書のデータフレーム作成へ
- 24. Spark RDD [Array [MyObject]]をRDDに変換する方法[MyObject]
- 25. RDD [(String、String)]をRDD [Array [String]]に変換する方法は?
- 26. 行rddを型付きrddに変換する方法
- 27. オプション[RDD]をRDDに変換する方法
- 28. RDD [List [String]]をRDDに変換する方法
- 29. RDD数のDStreamをシングルRDDに変換する方法
- 30. iOSからJPEG画像を一から作成する方法
「training.toDS」はどうですか? – zero323
@ zero323ああ、私は 'sqlContext._'をインポートする必要があることがわかります。答えを更新してください。 – javadba
@ zero323あなたは十分な情報を追加しました - あなた自身の答えを自由に追加してください – javadba