2016-05-24 29 views
1

私の研究は行っても、これについて何も見つかりませんでした。私はこのように、スパークデータフレームに簡単なpandas.DataFrameを変換したい:PysasarkでPandas DataframeをSpark Dataframeに変換するTypeError

df = pd.DataFrame({'col1': ['a', 'b', 'c'], 'col2': [1, 2, 3]}) 
sc_sql.createDataFrame(df, schema=df.columns.tolist()) 

私が手にエラーがある:

df = pd.DataFrame([1, 2, 3]) 
sc_sql.createDataFrame(df) 

と私:

TypeError: Can not infer schema for type: <class 'str'> 

は私がさらに簡単に何かを試してみました取得:

TypeError: Can not infer schema for type: <class 'numpy.int64'> 

助けてください?手動でスキーマなどを指定する必要がありますか?

sc_sqlは​​です。私はpython 3.4とspark 1.6のjupyterノートにあります。

ありがとうございます!

+1

私はコードが正常に動作しようとしましたが、エラーはありません。 – shivsn

+0

スキーマの有無にかかわらず、私にとっては... – neocortex

+0

スパークバージョンは使用していますか? – shivsn

答えて

1

これはスパークのバージョンに関連しています。最新のスパークのアップデートは、タイプ推論をよりインテリジェントにします。

mySchema = StructType([ StructField("col1", StringType(), True), StructField("col2", IntegerType(), True)]) 
sc_sql.createDataFrame(df,schema=mySchema) 
関連する問題