機械学習プロジェクトで自分のデータテーブルを使用する方法をよりよく理解するために取り組んでいます。機械学習データのフォーマット
私のカテゴリは次のとおりです。soldindays
と
[categoryname, modelitem, price, soldindays]
が対象となります。私は良い予測を得るためにデータを再フォーマットするかどうかは全くわからないんだけど
categoryname/modelitem/price/soldindays
furniture /chair /100 /22
wood /table /79 /4
glass / tv /190 /9
cardboard /desk /493 /198
:
私のデータテーブルは、この形式で120万行があります。これまでのところ、私はK nearest neighbros
= 1を使用しましたが、どういうわけか5%と78%の間で変化する精度レベルを得ています。これは私が訓練することを選択したデータによって大きく異なるようです。私はただの部分の代わりにそのすべてを鍛えようとします。
データを書式設定するときは、数値以外のすべての項目を数値に変換していました。私はすべての非数値属性の一意の値を数えました。次に、各リスト内の各項目をアルファベット順に並べ、各項目をその順序位置にマッピングしました。例えば
:私はいくつかの理由で悪い精度を持っている可能性が知っているが、私はデータフォーマットはおそらくだと思い
categoryname/modelitem/price/soldindays
1878 /87 /100/22
197 /290 /79 /4
2854 /785 /190/9
1148 /401 /493/198
:
map_categorynames = [aarvarks = 1, airplanes = 2]
map_modelitems = [feet = 1, shoes = 2]
それは次のように出てきました最大。どのように私のフィーチャを数値的にフォーマットすることができますか、どのタイプのモデル/セットが私の「タイプ」の問題に適しているのでしょうか?
私の最初の属性categoryname
は、modelitem
のように約1000種類のカテゴリを持っています。 price
およびsoldindays
は、0~10000の整数である。出力は、指定されたアイテムがその属性を与えられて販売されるのにどれくらいかかるかを知るために、soldindays
を予測することです。
私はビデオを読んで鑑賞し、すべてを理解するために最善を尽くしてきましたが、著者の間には非常に多くのバリエーションがあり、単一の教育機関に固執するのが難しいときに知識を蓄積するのは困難です。