3
pyspark.rdd.RDDをデータフレームに変換しようとしています。私はすでにスパークでやったことがありますが、ツェッペリンでは同じように動作していないようです。Zeppelin:pyspark.rdd.RDDをデータフレームに変換する(pysparkデータフレーム)
私は、このように私のpyspark.rdd.RDDを変換するために使用:
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import pandas as pd
#comment if a SparkContext has already been created
sc = SparkContext()
conf = {"es.resource" : "index/type", "es.nodes" : "ES_Serveur", "es.port" : "9200", "es.query" : "?q=*"}
rdd = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsInputFormat","org.apache.hadoop.io.NullWritable", "org.elasticsearch.hadoop.mr.LinkedMapWritable", conf=conf)
#to allow the toDF methode
spark = SparkSession(sc)
df = rdd.toDF().toPandas()
そして、それは...スパークでないツェッペリンに
しかしを提出する作品。
なぜ私は不思議に思っています。
私はいくつかのログエラーがありますが、それは1000行以上です..あなたが論文ログを与えることができます。
誰かがアイデアを持っている場合... おかげ