2017-04-27 9 views
0

EMRのzeppelinノートブックを使用して、s3をソースとして使用してストリームを印刷しようとしています。EMRとS3ソース上でスパークストリーミング

%pyspark 
from pyspark.streaming import StreamingContext 
from pyspark.sql import Row, SparkSession 
ssc = StreamingContext(sc, 45) 
streams=ssc.textFileStream('s3://realtime-nyc-bike/') 
streams.pprint() 

ただし、何も印刷されません。バケット名は正しいです。何が問題なの?スパークストリーミングドキュメントから

答えて

0

スパークストリーミングは、それが開始されたときに、それが実行されます計算を設定し、本当の処理がまだ始まっていません。すべての変換が設定された後で処理を開始するには、最後に

ssc.start()    // Start the computation 
ssc.awaitTermination() // Wait for the computation to terminate 
関連する問題