PysasarkでPandas DataframeをSpark Dataframeに変換するTypeError

私の研究は行っても、これについて何も見つかりませんでした。私はこのように、スパークデータフレームに簡単なpandas.DataFrameを変換したい：PysasarkでPandas DataframeをSpark Dataframeに変換するTypeError

df = pd.DataFrame({'col1': ['a', 'b', 'c'], 'col2': [1, 2, 3]}) 
sc_sql.createDataFrame(df, schema=df.columns.tolist())

私が手にエラーがある：

df = pd.DataFrame([1, 2, 3]) 
sc_sql.createDataFrame(df)

と私：

TypeError: Can not infer schema for type: <class 'str'>

は私がさらに簡単に何かを試してみました取得：

TypeError: Can not infer schema for type: <class 'numpy.int64'>

助けてください？手動でスキーマなどを指定する必要がありますか？

sc_sqlはです。私はpython 3.4とspark 1.6のjupyterノートにあります。

ありがとうございます！

出典

2016-05-24 neocortex

私はコードが正常に動作しようとしましたが、エラーはありません。 – shivsn

スキーマの有無にかかわらず、私にとっては... – neocortex

スパークバージョンは使用していますか？ – shivsn

これはスパークのバージョンに関連しています。最新のスパークのアップデートは、タイプ推論をよりインテリジェントにします。

mySchema = StructType([ StructField("col1", StringType(), True), StructField("col2", IntegerType(), True)]) 
sc_sql.createDataFrame(df,schema=mySchema)

出典

2017-04-17 20:24:53

PysasarkでPandas DataframeをSpark Dataframeに変換するTypeError

答えて

関連する問題