2017-07-10 11 views
0

私はpysparkを初めて使用しています。私はmatplotlibを使って結果をプロットしたいが、どの関数を使うべきか分からない。 SQLの結果をpandasに変換してからplotを使う方法を探しました。matplotlibを使用してpysparkのSQL結果をプロットする方法

+0

改良された文言、追加されたタグ。 – phd

+0

こんにちはチーム私はこれのための解決策を見つけました。私はSQLデータフレームをpandasデータフレームに変換し、グラフをプロットすることができました。以下はサンプルコードです。 – HasanDange

答えて

0

こんにちはチーム私はこれに対する解決策を見つけました。私はSQLデータフレームをpandasデータフレームに変換し、グラフをプロットすることができました。以下はサンプルコードです。

pyspark.sql import Row 
from pyspark.sql import HiveContext 
import pyspark 
from IPython.display import display 
import matplotlib 
import matplotlib.pyplot as plt 
%matplotlib inline 
sc = pyspark.SparkContext() 
sqlContext = HiveContext(sc) 
test_list = [(1, 'hasan'),(2, 'nana'),(3, 'dad'),(4, 'mon')] 
rdd = sc.parallelize(test_list) 
people = rdd.map(lambda x: Row(id=int(x[0]), name=x[1])) 
schemaPeople = sqlContext.createDataFrame(people) 
# Register it as a temp table 
sqlContext.registerDataFrameAsTable(schemaPeople, "test_table") 
df1=sqlContext.sql("Select * from test_table") 
pdf1=df1.toPandas() 
pdf1.plot(kind='barh',x='name',y='id',colormap='winter_r') 
関連する問題