私はログファイルを解析するために火花を使用する場合、私は、ファイル名の最初の文字が_
であれば、結果は空になり、ここに私のテストコードがあることに気づく:ファイル名の先頭に下線を引くファイルを読み込む方法は?
SparkSession spark = SparkSession
.builder()
.appName("TestLog")
.master("local")
.getOrCreate();
JavaRDD<String> input = spark.read().text("D:\\_event_2.log").javaRDD();
System.out.println("size : " + input.count());
event_2.log
にファイル名を変更した場合、コードは正しい方法で実行されます。 私はtext
関数が定義された:
@scala.annotation.varargs
def text(paths: String*): Dataset[String] = {
format("text").load(paths : _*).as[String](sparkSession.implicits.newStringEncoder)
}
私はそれが_
かもしれないと思うScalaのplaceholder
ですが、どのように私はこの問題を回避することができます。
ありがとうございました!
http://stackoverflow.com/a/19832011/2214674 – kinkajou
@kinkajouありがとう、重複した問題、そして私は共振を見つける。 – iameven