スパークストリーミング - バイナリデータファイルの処理

私はpyspark 1.6.0を使用しています。スパークストリーミング - バイナリデータファイルの処理

AWS S3バケットからバイナリデータファイルを読み取るための既存のpysparkコードがあります。他のSpark/Pythonコードは、int、string、booleanなどに変換するためにデータのビットを解析します。各バイナリファイルは1つのデータレコードを持ちます。 PYSPARKで

私が使用してバイナリファイルを読み込む： sc.binaryFiles（「S3N：// .......」）それは（ファイル名との組を与えるよう

は、これは素晴らしい取り組んでいますデータ）が、私は同等のPYSPARKストリーミングAPIをストリーム（願わくばファイル名でもあります）としてバイナリファイルを読むために見つけることを試みています。

私が試した： binaryRecordsStream（ディレクトリ、RECORDLENGTH）

が、私はこの作業を取得できませんでした...

誰でもPYSPARKストリーミングは、バイナリデータファイルを読み取る方法をいくつかのライトを共有することはできますか？

出典

2016-06-29 yhw82

Spark Streamingでは、関連する概念がfileStream APIです。このAPIは、ScalaとJavaでは使用できますが、Pythonでは使用できません。ドキュメントのhttp://spark.apache.org/docs/latest/streaming-programming-guide.html#basic-sourcesに記載されています。読んでいるファイルをテキストファイルとして読むことができる場合は、textFileStream API

出典

2017-01-10 17:07:39 JuJoDi

スパークストリーミング - バイナリデータファイルの処理

答えて

関連する問題