2013-05-15 29 views
8

私はスパークストリーミングでプログラミングしていますが、スカラには問題があります。私は、この関数の定義は、このような関数のStreamingContext.fileStreamを使用するspark streaming fileStream

をしようとしている:

def fileStream[K, V, F <: InputFormat[K, V]](directory: String)(implicit arg0: ClassManifest[K], arg1: ClassManifest[V], arg2: ClassManifest[F]): DStream[(K, V)] 

新しいファイル用のHadoop互換ファイルシステムを監視し、使用してそれらを読み込む入力ストリームを作成します。指定されたキー値タイプと入力フォーマット。ファイル名はで始まる。無視されます。 HDFSは、HDFSはHDFSは、新しいファイルの

を監視するために ディレクトリ HDFSディレクトリのファイル読み取るため F 入力形式のファイルを読み取るための V 値の種類を提出読み取るため K キーの種類私が合格する方法がわかりませんキーと値のタイプ。スパークストリーミングで マイコード:

val ssc = new StreamingContext(args(0), "StreamingReceiver", Seconds(1), 
    System.getenv("SPARK_HOME"), Seq("/home/mesos/StreamingReceiver.jar")) 

// Create a NetworkInputDStream on target ip:port and count the 
val lines = ssc.fileStream("/home/sequenceFile") 

JavaコードHadoopのファイルを書き込むために:

public class MyDriver { 

private static final String[] DATA = { "One, two, buckle my shoe", 
     "Three, four, shut the door", "Five, six, pick up sticks", 
     "Seven, eight, lay them straight", "Nine, ten, a big fat hen" }; 

public static void main(String[] args) throws IOException { 
    String uri = args[0]; 
    Configuration conf = new Configuration(); 
    FileSystem fs = FileSystem.get(URI.create(uri), conf); 
    Path path = new Path(uri); 
    IntWritable key = new IntWritable(); 
    Text value = new Text(); 
    SequenceFile.Writer writer = null; 
    try { 
     writer = SequenceFile.createWriter(fs, conf, path, key.getClass(), 
       value.getClass()); 
     for (int i = 0; i < 100; i++) { 
      key.set(100 - i); 
      value.set(DATA[i % DATA.length]); 
      System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key, 
        value); 
      writer.append(key, value); 
     } 
    } finally { 
     IOUtils.closeStream(writer); 
    } 
} 

}

+0

何の問題を見ていますか?コンパイルエラーが出ていますか?もしそうなら、彼らは何ですか?コードを実行するときにエラーや予期しない動作が発生していますか?あなたが見ているエラー/予期しない行為に、より多くの文脈を提供すれば、役に立つ答えを得る可能性が高くなります。 – cmbaxter

答えて

5

をごfileStreamを使用したい場合は、あなたがすべて供給する必要があるとしていますそれを呼び出すときに3つのタイプのパラメータがあります。 KeyValueInputFormatの種類を呼び出す前に知っておく必要があります。

val lines = ssc.fileStream[LongWritable, Text, TextInputFormat]("/home/sequenceFile") 

これら3種類は、あなたの種類のことが起こるならば、あなたはそれが任意の型を必要としないので、代わりにtextFileStreamを使用することがあります:あなたのタイプはLongWritableTextTextInputFormatた場合は、次のようなので、fileStreamを呼ぶだろう私が言及した3つのタイプを使用して、fileStreamに代理人を送ります。それを使用すると、次のようになります。あなたは

val lines = ssc.textFileStream("/home/sequenceFile") 
+0

ちょっと同じことをやろうとしていますが、バイナリファイルを使っています。私はここで指示に従っていますが、残念ながらそれは動作しません。何か提案してもらえますか? https://stackoverflow.com/questions/45778016/reading-binaryfile-with-spark-streaming – MaatDeamon

2
val filterF = new Function[Path, Boolean] { 
    def apply(x: Path): Boolean = { 
     val flag = if(x.toString.split("/").last.split("_").last.toLong < System.currentTimeMillis) true else false 
     return flag 
    } 
} 

val streamed_rdd = ssc.fileStream[LongWritable, Text, TextInputFormat]("/user/hdpprod/temp/spark_streaming_input",filterF,false).map(_._2.toString).map(u => u.split('\t'))