多くのプログラムによるクリーンアップの後、私のデータセットはこのようになります(ここで部分的なデータセットを示しています)。SparkでRDD行の連続する空白を削除します
ABCD A [email protected] 79
BGDA F [email protected] 89
私はさらにスパークデータフレームの操作のために、以下の
ABCD,A,[email protected],79
BGDA,F,[email protected],89
val reg = """/\s{2,}/"""
val cleanedRDD2 = cleanedRDD1.filter(x=> !reg.pattern.matcher(x).matches())
にこれを変換したい。しかし、これは何も返しません。空の文字列を区切り文字で見つけて置き換えるにはどうすればよいですか? ありがとう! rt
正規表現の区切り文字削除します: ' ""'ヴァルREG = "" "\ sの{2、}" '、あなたが使用することはできません、RDDの内容を変更するだけで
.map
を使用するには。完全な文字列の一致が必要なので、matches()を使用します。 'find()'を使ってください。 –
おそらく、あなたが望むのは、https://ideone.com/T8OSICのような、もっと簡単です。 –
ありがとうウィクショーそれが助けになった! – user1384205