2017-09-04 9 views
-2

大規模なCSVファイルに行がいくつかありますが、一部のデータ値は改行がないためにシフトします。その結果、間違った列ヘッダーに値が表示されます。たとえば。私のテーブルに3つの列がある場合、、、、、腐敗した後、私は、のような値を見始めます。列内のすべての非整数を見つける

すべての行を削除する方法はありますか。私は実際にIntでなければならないことを知っている行の中に非intを見ますか?

+1

をやりたいはずです。 –

答えて

0

あなたができることは、ラインをループすることです。lines.split(",").count()があなたの望むものと等しくない場合は、それをフィルタリングすることができます。このような何か:

import scala.io.Source 
val n = 5 //or how many columns you require 
Source.fromFile(input_file).getLines().toSeq.map(_.split(",")).filter(_.count == n) 

これはあなたが入力データフレームと期待される出力データフレームを提供する必要があります:)

関連する問題