EMRとS3ソース上でスパークストリーミング

EMRのzeppelinノートブックを使用して、s3をソースとして使用してストリームを印刷しようとしています。EMRとS3ソース上でスパークストリーミング

%pyspark 
from pyspark.streaming import StreamingContext 
from pyspark.sql import Row, SparkSession 
ssc = StreamingContext(sc, 45) 
streams=ssc.textFileStream('s3://realtime-nyc-bike/') 
streams.pprint()

ただし、何も印刷されません。バケット名は正しいです。何が問題なの？スパークストリーミングドキュメントから

出典

2017-04-27 Varun Mallya

：

スパークストリーミングは、それが開始されたときに、それが実行されます計算を設定し、本当の処理がまだ始まっていません。すべての変換が設定された後で処理を開始するには、最後に

ssc.start()    // Start the computation 
ssc.awaitTermination() // Wait for the computation to terminate

出典

2017-06-14 19:02:15

EMRとS3ソース上でスパークストリーミング

答えて

関連する問題