0
spark scalaで区切られたテキストファイルを読んでいます。区切り文字〜の前にすべての正規表現を作成しようとしています。現在、私はすべてのスペースがトリミングされている場所です。私は、これを達成するための提案や改善を探しています。おそらく、トリム関数のいくつかの並べ替えは、より簡単になります。区切り記号の前と後にすべてのスペースをトリムする正規表現Spark Scala
def truncateRDD(fileName : String): RDD[String] = {
val rdd = sc.textFile(fileName)
rdd.map(lines => lines.replaceAll("""[\t\p{Zs}]+""", ""))
}
入力:
20161111 ~ ~10~1234~ "This is an example" ~P15~-EXAMPLE~2017~ 2014567EXAMPLE
所望の出力:
20161111~~10~1234~"This is an example"~P15~-EXAMPLE~2017~2014567EXAMPLE