2017-09-29 23 views
0

2.0.0ではなくPySparkバージョン1.6.2でこのコード行を実行する方法はありますか?問題は、SparkSessionがSpark 1.6.2に存在しないことです。スパークの古いバージョン(2.0より前のバージョン)についてはSpark 1.6.0で空のデータフレームを作成するにはどのようにSpark 2.0.0の例がありますか?

cfg = SparkConf().setAppName('s') 
spark = SparkSession.builder.enableHiveSupport().config(conf=cfg).getOrCreate() 
df = spark.createDataFrame([], schema=StructType([StructField('id', StringType()), 
                 StructField('pk', StringType()), 
                 StructField('le', StringType()), 
                 StructField('or', StringType())])) 

答えて

1

、あなたは、関連するdocumentationを参照して、代わりにSparkSessionHiveContext使用することができます。環境をセットアップする小さな例:あなたはsqlContext変数を使用して、以前と同じ方法でデータフレームを作成することができ、この後

from pyspark import HiveContext 

conf = SparkConf().setAppName('s') 
sc = SparkContext(conf=conf) 
sqlContext = HiveContext(sc) 

+0

'SQLContext'もジョブを実行する必要があります – desertnaut

+1

@desertnaut正しく、' HiveContext'は 'SQLContext'のスーパーセットです。追加の機能が必要ない限り、 'SQLContext'も同様に使用できます。質問の中のコードは 'enableHiveSupport()'を含んでいたので、答えに 'HiveContext'しか含まれていませんでした。 – Shaido

関連する問題