Spark Contextにタブ区切りファイルをロードする必要があります。しかし、いくつかのフィールドには値がありません。これらの行を除外する必要があります。私は次のコードを使用しています。ただし、フィールドが完全に欠落している場合(行のタブが1つ少ないなど)、このコードは例外をスローします。これを達成するためのよりよい方法は何ですか?テキストファイルをSpark Contextに読み込む際にフィールドが欠落している行をスキップ
val RDD = sc.textFile("file.txt").map(_.split("\t"))
.filter(_(0).nonEmpty)
.filter(_(1).nonEmpty)
.filter(_(2).nonEmpty)
.filter(_(3).nonEmpty)
.filter(_(4).nonEmpty)
.filter(_(5).nonEmpty)
私はおそらく 'flatMap'と' match'を使用すると思います。そうすれば、同じステップで行を処理することさえできます。 – Alec