-2
大規模なCSVファイルに行がいくつかありますが、一部のデータ値は改行がないためにシフトします。その結果、間違った列ヘッダーに値が表示されます。たとえば。私のテーブルに3つの列がある場合、、、、、腐敗した後、私は、のような値を見始めます。列内のすべての非整数を見つける
すべての行を削除する方法はありますか。私は実際にIntでなければならないことを知っている行の中に非intを見ますか?
大規模なCSVファイルに行がいくつかありますが、一部のデータ値は改行がないためにシフトします。その結果、間違った列ヘッダーに値が表示されます。たとえば。私のテーブルに3つの列がある場合、、、、、腐敗した後、私は、のような値を見始めます。列内のすべての非整数を見つける
すべての行を削除する方法はありますか。私は実際にIntでなければならないことを知っている行の中に非intを見ますか?
あなたができることは、ラインをループすることです。lines.split(",").count()
があなたの望むものと等しくない場合は、それをフィルタリングすることができます。このような何か:
import scala.io.Source
val n = 5 //or how many columns you require
Source.fromFile(input_file).getLines().toSeq.map(_.split(",")).filter(_.count == n)
これはあなたが入力データフレームと期待される出力データフレームを提供する必要があります:)
をやりたいはずです。 –