私は大きなDataFrame
オブジェクト(1,440,000,000行)を持っています。私はメモリ(swap includet)の制限で動作します。`DataFrame`ローのメモリ効率的なフィルタリング
フィールドの特定の値を持つ行のサブセットを抽出する必要があります。しかし、私はそのように行う場合:
>>> SUBSET = DATA[DATA.field == value]
は私がMemoryError
例外やクラッシュのいずれかで終わります。 中間のマスク(DATA.field == value
)を計算せずに明示的に行をフィルタリングする方法はありますか?
私はDataFrame.filter()とDataFrame.select()メソッドを見つけましたが、行データではなく列ラベル/行インデックスで動作します。
ありがとうございますが、私が尋ねていることではありません。私のフィールドの型は異なっています( 'int'、' float'と 'str'-wor、' dtype = "category" 'を使います) – abukaj