2017-08-04 5 views
0

私は意思決定ツリーモデルを作成しており、それをデータセットでトレーニングしています。私の機能に日付/タイムスタンプを含める方法

しかし、このデータセット内の列のいくつかは、どちらかタイムスタンプまたはです。私はApacheのドキュメントを見てきましたが、この値を解析したり、自分のfeaturesカラムに追加する方法を見つけることができませんでした。

どうすればいいですか?

+0

多くの場合、これらのフィールドを分類子に使用することに意味はありません。これらのフィールドに便利な機能がありますか? –

+0

うん。通常、エンドユーザーは、自分のプログラムが実行されているときに異常を探すためにどの列を配置しますか。考えられるシナリオは、列の日付が特定のしきい値を超えている場合、その値を悪いと見なす必要があり、意思決定ツリーがその値が間違っている理由を見て理解する必要があるためです。そのため、日付私の特徴ベクトル –

+0

@ user8371915誰もその質問に答えなかったので重複していません。その答えは受け入れられておらず、そこに掲示されている解決策はPythonではなく、Scala用です。 –

答えて

0

基本的には、それらをフィーチャに変換する必要があります。 1つの方法は、年、月、週、または週末、時などのダミー変数を作成することです。それはあなたの問題のために作成したい機能に依存します。

+0

これはうまくいくかもしれませんが、タイムスタンプにも時間、分、秒が含まれているため、多くの処理が必要になります。私はタイムスタンプをIntegerに変換することを考えましたが、どれくらい合理的なのでしょうか –

+0

それはあなたが特定の問題に依存するのはなぜですか、あなたは時間だけを気にするならば、タイムスタンプから時間を抽出して24ダミー変数はすべての時間でそこにあります。日付を使用すると、週末/週末、曜日(1-7)、月(1-12)など、いくつかの機能を作成することもできます。問題に時間と分の詳細が必要な場合は、例えば、0時から秒数を数えて整数に変換します。 –

関連する問題