私は現在、特定の製品の販売を予測するために、店舗の場所と商品名のデータセットを取得しています。ニューラルネットワークのカテゴリの機能を処理するには?
バイナリエンコーディングやpandas get_dummies()を使用したかったのですが、アイテムの名前が5000個あり、メモリエラーが発生しました。これに対処する方法はありますか?皆さんありがとう!
あなたの代わりにワンホットエンコーディングを使用する必要があります代わりにダミー変数のgazillionsを作成するprint(train.shape)
print(train.dtypes)
print(train.head())
(125497040, 6)
id int64
date object
store_nbr int64
item_nbr int64
unit_sales float64
onpromotion object
dtype: object
id date store_nbr item_nbr unit_sales onpromotion
0 0 2013-01-01 25 103665 7.0 NaN
1 1 2013-01-01 25 105574 1.0 NaN
2 2 2013-01-01 25 105575 2.0 NaN
3 3 2013-01-01 25 108079 1.0 NaN
4 4 2013-01-01 25 108701 1.0 NaN
データフレームの長さは何ですか? – Dark
長さは約100,000,000です。 – BenjiBB
あなたは並列プログラミングをする必要があります。 1億行?それほど多く処理することはありません – Dark