1
MultiIndex Pandas DataFrameを使用しているため、インデックスを失うことなくSpark DataFrameに変換できます。これは、おもちゃの例を使用して簡単にテストすることができます:MultiIndex Pandas DataFrameでDataFrameとMissing Indexesが発生する
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 4), index=arrays)
df_spark = sqlContext.createDataFrame(df)
すべてのインデックスを紛失します。インデックスを維持するために何か必要なことはありますか?