1
私はカテゴリ値を持つ大きなデータセットを持っており、DictVectorizer
を使用してそれらをエンコードしようとしました。以下は、私が試したコードのスニペットです。大きなデータセットを持つDictVectorizer
dv = DictVectorizer(sparse=True)
_dicts = []
for line in fp:
_dict = create_dict_feature(line)
_dicts.append(_dict)
dv.fit_transform(_dicts)
しかし、MemoryError
は_dicts.append(_dict)
で発生します。私はこの問題を回避するための効率的な方法が何であるか疑問に思っています。