私はスパークの初心者です 私はapiリンクからいくつかのjsonデータを取り出しました。テーブルまたはデータフレームとしてpysparkのURLからフェッチされたjsonデータを保存するには
import urllib2
test=urllib2.urlopen('url')
print test
と私はそれを保存するこの
を取得私はこれを行うことができますどのように私は、スパーク2.0 を使用していますカルヤン
くれを案内してください。
私はスパークの初心者です 私はapiリンクからいくつかのjsonデータを取り出しました。テーブルまたはデータフレームとしてpysparkのURLからフェッチされたjsonデータを保存するには
import urllib2
test=urllib2.urlopen('url')
print test
と私はそれを保存するこの
を取得私はこれを行うことができますどのように私は、スパーク2.0 を使用していますカルヤン
くれを案内してください。
これについては、いくつかの調査を行い、sqlContextを試してみてください。ここではサンプルコードは次のとおりです。 -
>>> df2 = sqlContext.jsonRDD(test)
>>> df2.first()
また訪問ライン、ここでより多くのものをチェックし、ラケッシュ・クマールの答えに追加 https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html
、スパーク2.0でそれを行う方法は次のとおりです。
http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources
例として、JSONファイルのコンテンツに基づいてDataFrameを作成します。
# spark is an existing SparkSession
df = spark.read.json("examples/src/main/resources/people.json")
# Displays the content of the DataFrame to stdout
df.show()
jsonファイルとして提供されるファイルは、標準的なJSONファイルではありません。各行には、独立した有効なJSONオブジェクトが含まれている必要があります。詳細については、改行で区切られたJSONとも呼ばれるJSON Linesテキスト形式を参照してください。その結果、通常複数行のJSONファイルが失敗することがよくあります。