私はpyspark 1.6.0を使用しています。スパークストリーミング - バイナリデータファイルの処理
AWS S3バケットからバイナリデータファイルを読み取るための既存のpysparkコードがあります。他のSpark/Pythonコードは、int、string、booleanなどに変換するためにデータのビットを解析します。各バイナリファイルは1つのデータレコードを持ちます。 PYSPARKで
私が使用してバイナリファイルを読み込む: sc.binaryFiles(「S3N:// .......」)それは(ファイル名との組を与えるよう
は、これは素晴らしい取り組んでいますデータ)が、私は同等のPYSPARKストリーミングAPIをストリーム(願わくばファイル名でもあります)としてバイナリファイルを読むために見つけることを試みています。
私が試した: binaryRecordsStream(ディレクトリ、RECORDLENGTH)
が、私はこの作業を取得できませんでした...
誰でもPYSPARKストリーミングは、バイナリデータファイルを読み取る方法をいくつかのライトを共有することはできますか?