2017-07-02 10 views
1

私は、Spark Learningの例をいくつか取り上げ、Lightning Fast Data Analysisを使って自分の開発を追加しています。RDD.saveAsTextFileの後の空のファイルは何ですか?

基本的な変換と動作を見るためにこのクラスを作成しました。ここで

/** 
* Find errors in a log file 
*/ 

package com.oreilly.learningsparkexamples.mini.java; 

import org.apache.spark.SparkConf; 
import org.apache.spark.api.java.JavaRDD; 
import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java.function.Function; 

public class FindErrors { 
    public static void main(String args[]){ 
     String inputFile = args[0]; 
     String outputFile = args[1]; 
     //Create a Spark context 
     SparkConf conf = new SparkConf().setAppName("findErrors"); 
     JavaSparkContext sc = new JavaSparkContext(conf); 
     //Load input data 
     JavaRDD<String> input = sc.textFile(inputFile); 
     //Split up into words 
     JavaRDD<String> errorsRDD = input.filter(
      new Function<String, Boolean>() { 
       public Boolean call(String x) { 
        return x.contains("error"); 
       } 
      }); 
     //Transform into word and count 
     //errorsRDD.saveAsTextFile(outputFile); 

     JavaRDD<String> warningsRDD = input.filter(
      new Function<String, Boolean>() { 
       public Boolean call(String x) { 
        return x.contains("warning"); 
       } 
      }); 

     JavaRDD<String> badLinesRDD = errorsRDD.union(warningsRDD); 

     badLinesRDD.saveAsTextFile(outputFile); 

     System.out.println("I had " + badLinesRDD.count() + " concerning lines."); 
     System.out.println("Here are 10 examples:"); 
     for(String line: badLinesRDD.take(10)){ 
      System.out.println(line); 
     } 

    } 
} 

は、私はそれを実行するために使用されるコマンドです:

$SPARK_HOME/bin/spark-submit --class com.oreilly.learningsparkexamples.mini.java.FindErrors ./target/learning-spark-mini-example-0.0.1.jar ../files/fake_logs/log1.log ./errorLog 

ここでは、ログファイルの内容です:私が気づい

66.249.69.97 - - [24/Sep/2014:22:25:44 +0000] "GET /071300/242153 HTTP/1.1" 404 514 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 
71.19.157.174 - - [24/Sep/2014:22:26:12 +0000] "GET /error HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.174 - - [24/Sep/2014:22:26:12 +0000] "GET /favicon.ico HTTP/1.1" 200 1713 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.174 - - [24/Sep/2014:22:26:37 +0000] "GET/HTTP/1.1" 200 18785 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.174 - - [24/Sep/2014:22:26:37 +0000] "GET /jobmineimg.php?q=m HTTP/1.1" 200 222 "http://www.holdenkarau.com/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /error HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /error HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.174 - - [24/Sep/2014:22:26:37 +0000] "GET /jobmineimg.php?q=m HTTP/1.1" 200 222 "http://www.holdenkarau.com/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /warning HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /warning HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 

一つは、出力ではなく、いくつかのファイルを作成することです私が期待した1つのファイルよりも

ファイルは、次のとおりです。

_SUCCESS 


part-00000 
71.19.157.174 - - [24/Sep/2014:22:26:12 +0000] "GET /error HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /error HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 

part-00001 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /error HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 

part-00002 


part-00003 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /warning HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 
71.19.157.175 - - [24/Sep/2014:22:26:12 +0000] "GET /warning HTTP/1.1" 404 505 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36" 

ファイルは、警告/エラーの各「グループ化」のために作成されたかのように表示されます。しかし空白のファイルは何ですか?

また、これは私のコードにありますが、私がまだ見つけていないものか、それともSparkの特長ですか?

答えて

1

これは機能です。 saveAsTextFile Sparkは、データが含まれているかどうかにかかわらず、パーティションごとに1つの出力ファイルを書き込みます。 filterを適用しているため、元々データを含んでいた入力パーティションの一部が空になることがあります。したがって、空のファイル。

+0

いいえ、ユーザー6910411。 – runnerpaul

関連する問題