pysparkのURLからフェッチされたjsonデータを保存するには

私はスパークの初心者です私はapiリンクからいくつかのjsonデータを取り出しました。テーブルまたはデータフレームとしてpysparkのURLからフェッチされたjsonデータを保存するには

import urllib2 
test=urllib2.urlopen('url') 
print test

と私はそれを保存するこの

を取得私はこれを行うことができますどのように私は、スパーク2.0 を使用していますカルヤン

くれ

を案内してください。

出典

2017-01-24 Kalyan

これについては、いくつかの調査を行い、sqlContextを試してみてください。ここではサンプルコードは次のとおりです。 -

>>> df2 = sqlContext.jsonRDD(test) 
>>> df2.first()

また訪問ライン、ここでより多くのものをチェックし、ラケッシュ・クマールの答えに追加 https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html

出典

2017-01-24 06:25:04

、スパーク2.0でそれを行う方法は次のとおりです。

http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources

例として、JSONファイルのコンテンツに基づいてDataFrameを作成します。

# spark is an existing SparkSession 
df = spark.read.json("examples/src/main/resources/people.json") 
# Displays the content of the DataFrame to stdout 
df.show()

jsonファイルとして提供されるファイルは、標準的なJSONファイルではありません。各行には、独立した有効なJSONオブジェクトが含まれている必要があります。詳細については、改行で区切られたJSONとも呼ばれるJSON Linesテキスト形式を参照してください。その結果、通常複数行のJSONファイルが失敗することがよくあります。

出典

2017-01-24 07:10:30 Yaron

pysparkのURLからフェッチされたjsonデータを保存するには

答えて

関連する問題