2017-01-24 4 views
0

私はスパークの初心者です 私はapiリンクからいくつかのjsonデータを取り出しました。テーブルまたはデータフレームとしてpysparkのURLからフェッチされたjsonデータを保存するには

import urllib2 
test=urllib2.urlopen('url') 
print test 

と私はそれを保存するこの

enter image description here

を取得私はこれを行うことができますどのように私は、スパーク2.0 を使用していますカルヤン

くれ

を案内してください。

答えて

0

これについては、いくつかの調査を行い、sqlContextを試してみてください。ここではサンプルコードは次のとおりです。 -

>>> df2 = sqlContext.jsonRDD(test) 
>>> df2.first() 

また訪問ライン、ここでより多くのものをチェックし、ラケッシュ・クマールの答えに追加 https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html

0

、スパーク2.0でそれを行う方法は次のとおりです。

http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources

例として、JSONファイルのコンテンツに基づいてDataFrameを作成します。

# spark is an existing SparkSession 
df = spark.read.json("examples/src/main/resources/people.json") 
# Displays the content of the DataFrame to stdout 
df.show() 

jsonファイルとして提供されるファイルは、標準的なJSONファイルではありません。各行には、独立した有効なJSONオブジェクトが含まれている必要があります。詳細については、改行で区切られたJSONとも呼ばれるJSON Linesテキスト形式を参照してください。その結果、通常複数行のJSONファイルが失敗することがよくあります。

関連する問題