分析のためにSPARK SQLコードからデータを照会するRESTインターフェイスを提供するWebサービスからJSONデータを読み取る必要があります。 BLOBストアに格納されたJSONを読み込んで使用できます。Spark SQL:DataFrameとしてRESTサービスからjsonデータを消費する方法
私は、RESTサービスからデータを読み込み、それ以外のDataFrame
のように使うのが最善の方法であると思っていました。
私はSPARK 1.6 of Linux cluster on HD insight
を使用しています。また、誰かが同じコードスニペットを共有することができれば感謝します。私はまだSPARK環境にはまったく新しいです。スパーク1.6で
としてデータフレームを作成することは、それはあなたがダウンロードした後、(ノードに配布)並列化したい単一のJSONブロブである、またはそれは多くありますあなたはむしろノードで直接ダウンロードしたい異なるJSON文字列ですか?単一のBLOBの場合は、http://spark.apache.org/docs/latest/sql-programming-guide.html#json-datasetsに記載されているようにフォーマットされます。「各行には、独立した有効なJSONオブジェクト " – Ashish
@Ashish:これらは実際には私のウェブサービスによって、どこかで8から10のオーダーで公開されている実際には複数のファイルであり、サイズはそれほど大きくありません。私の分析のために、HDFSに保存されたデータのコンテキストとして主に使用されます。私はリンクを見ましたが、すべての例でローカルファイルを探していますが、これは 'val path ="というようにいくらか読めるようになっています。http://www.examples/src/main/resources?type = people "' – Kiran
jsonは階層構造でデータフレームはフラットなので、Sparkは任意のjsonをデータフレームに解析できません。 jsonがsparkによって作成されていない場合は、「各行に別々の独立した有効なJSONオブジェクトが含まれている必要があります」という要件を満たさないため、カスタムコードを使用して解析し、大文字小文字のクラスオブジェクトまたはスパークSQL行。スカラーで解析する方法の1つがhttp://stackoverflow.com/questions/37003083/spark-parquet-nested-value-flatten/37005148#37005148 – Ashish