Zeppelin：pyspark.rdd.RDDをデータフレームに変換する（pysparkデータフレーム）

pyspark.rdd.RDDをデータフレームに変換しようとしています。私はすでにスパークでやったことがありますが、ツェッペリンでは同じように動作していないようです。Zeppelin：pyspark.rdd.RDDをデータフレームに変換する（pysparkデータフレーム）

私は、このように私のpyspark.rdd.RDDを変換するために使用：

from pyspark import SparkContext, SparkConf 
from pyspark.sql import SparkSession 
import pandas as pd 


#comment if a SparkContext has already been created 
sc = SparkContext() 

conf = {"es.resource" : "index/type", "es.nodes" : "ES_Serveur", "es.port" : "9200", "es.query" : "?q=*"} 
rdd = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsInputFormat","org.apache.hadoop.io.NullWritable", "org.elasticsearch.hadoop.mr.LinkedMapWritable", conf=conf) 

#to allow the toDF methode 
spark = SparkSession(sc) 

df = rdd.toDF().toPandas()

そして、それは...スパークでないツェッペリンに しかしを提出する作品。

なぜ私は不思議に思っています。

私はいくつかのログエラーがありますが、それは1000行以上です..あなたが論文ログを与えることができます。

誰かがアイデアを持っている場合... おかげ

出典

2017-04-21 fjcf1

は、私は解決策を発見した：（ツェッペリン中）スパーク通訳の構成では、あなたが偽にzeppelin.spark.useHiveContext行を変更する必要があります。 Nervertheless、私は、なぜ方法がtoDFメソッドがある行で問題が発生するかを理解していない...

出典

2017-04-24 09:00:59 fjcf1

Zeppelin：pyspark.rdd.RDDをデータフレームに変換する（pysparkデータフレーム）

答えて

関連する問題