私はいくつかのカテゴリの文字列を持つデータセットを持っており、それらをdouble型で表現したいと考えています。私はこの変換のためにStringIndexerを使用していましたが、NULL値を持つ別のデータセットで試したところ、java.lang.NullPointerException
エラーが発生し、動作しませんでした。よりよく理解するためにSparkのStringIndexerでNULL値を持つ文字列をカラムに変換する
は、ここに私のコードです:
for(col <- cols){
out_name = col ++ "_"
var indexer = new StringIndexer().setInputCol(col).setOutputCol(out_name)
var indexed = indexer.fit(df).transform(df)
df = (indexed.withColumn(col, indexed(out_name))).drop(out_name)
}
それでは、どのように私はStringIndexerと、このNULLデータの問題を解決することができますか?
文字列型の分類型データをNULL値でdouble型に変換するための優れたソリューションはありますか?