3
RDDの各要素が区切り文字で区切られたファイルのセクションであるファイルからRDDを構築しました。フィルタ機能を使用せずにRDDの最初の要素を削除
val inputRDD1:RDD[(String,Long)] = myUtilities.paragraphFile(spark,path1)
.coalesce(100*spark.defaultParallelism)
.zipWithIndex() //RDD[String, Long]
.filter(f => f._2!=0)
私は(フィルター)の上に最後の操作を行う理由は、最初のインデックス0
を削除することです最初の要素を削除するのではなく、インデックス値のための各要素をチェックするために良い方法はあります上記のように?
ありがとうございます!
ありがとうございます。これはおよそ10秒ほど良いと思われます。これをさまざまなファイルサイズでテストする必要があります。 – user1384205