dask.DataFrameのメソッドはすべて、インデックス列がソートされていることを確認しているようです。しかし、from_delayed
を使用することによって、ソートされていないインデックス列、持っているDASKのデータフレーム構築することが可能である:順序付けられていないインデックスを持つdaskデータフレームでサイレントエラーが発生する可能性がありますか?
pdf1 = delayed(pd.DataFrame(dict(A=[1,2,3], B = [1,1,1])).set_index('A'))
pdf2 = delayed(pd.DataFrame(dict(A=[1,2,3], B = [1,1,1])).set_index('A'))
ddf = dd.from_delayed([pdf1,pdf2]) #dask.DataFrame with unordered index
組み合わせを[インデックスが設定され、インデックスがソートされていない、各部門が不明である]のものです私自身が作成したデータフレームの中でこれまで見たことがないものです。だから私の質問は:
- このようなデータフレームで正常に動作するようにdaskテストされていますか?
- このようなデータフレームでの計算が間違った結果を示すことさえあるかもしれません。彼らはソートされるべきインデックスを仮定しているか、不完全なデータのサブセットに対して実行されているからです。
- さらに一般的には、インデックス列がソートされていない場合、インデックスによるアクセスの速度が遅くなるか、機能が停止するだけですか?