Option [Seq [String]]型の一部の列が欠落している場合、私たちのデータソース。理想的には、不足している列のデータをNone
で埋めたいと思います。タイプがOption [Seq [String]](scala)の場合、Spark 2.0暗黙のエンコーダが欠落している列を処理する
シナリオ:
私たちは、その持っているcolumn1のなくCOLUMN2に読んでいるいくつかの寄木細工のファイルを持っています。
これらの寄木細工のファイルからデータをDataset
にロードし、MyType
としてキャストします。
case class MyType(column1: Option[String], column2: Option[Seq[String]])
sqlContext.read.parquet("dataSource.parquet").as[MyType]
org.apache.spark.sql.AnalysisException: '
column2
' 与えられた入力列を解決することはできません:[カラム1]。
column2データを持つデータセットをNone
として作成する方法はありますか?