2017-04-20 3 views
0

pySpark(2.0+)のDecisionTreeClassifierアルゴリズムにサンプルウェイトを入れる方法があるかどうか知っていますか? ありがとうございます!近く更新でpysparkディシジョンツリーのサンプルウェイト

(1クラスの真の予測の重要性がより重要である通常バイアスされたデータセットで必要か)

答えて

0

pysparkのDecisionTreeで現在何もハイパーパラメータまたはクラスの重みを指定するDecisionTreeClassifierクラスはありません、それはあるかもしれません追加され、あなたがここに

をJIRAでの進捗状況を追跡することができますがあり、正式に、利用できるすでにこれを実施しているgitのブランチではないがされているが、あなたは今のところ、このプルリクエストを使用することができます。 https://github.com/apache/spark/pull/16722

あなた時間データセットが非常に高いバイアスを持っている場合は、あなたがのランダムなアンダーサンプルを実行することができます

1アンダーデータセット をaveが、現在のシナリオを指定していない、あなたが重みを利用したい理由が、今の周りの仕事を示唆しました非常に高い周波数を持つデータセット

2.重みを強制する 良いアプローチではなく動作します。重みごとに各クラスの行を繰り返すことができます。 たとえば、バイナリ分類の場合、(0/1)分類に1:2の重みが必要な場合は、ラベル1を2回繰り返してすべての行を繰り返すことができます。

+0

このリンクは質問に答えるかもしれませんが、回答の重要な部分をここに含めて参考にしてください。リンクされたページが変更された場合、リンクのみの回答は無効になります。 - [レビューの投稿](レビュー/低品質の投稿/ 18746735) –

+0

@chade_回答の詳細 – pratiklodha

+0

@pratiklodha私はそれを見ました。私は私のコメントを削除し、私の旗を引っ込めました。 –