2017-05-16 20 views
0

私はtsfreshでextract featuresメソッドを使用して、時系列のコレクションからフィーチャを抽出しています。(Python)tsfresh adds_featuresは、NaNがたくさんある巨大なデータフレームの列を作成します

dataframe

ところ、コラムidは一つの値が、辞書内の各データフレームごとに異なるがある:基本的に、私が持っていることは、このように見えるデータフレームの辞書があります。私は以下を行います:

exracted_features = extract_features(subsets, column_id='id', column_value = '#text', feature_extraction_settings=MinimalFeatureExtractionSettings()) 

ここで、サブセットはデータフレームを含む辞書です。私は基本的に大きな一回のセリを別々の塊で切り取り、それらを辞書に入れます。今度は、各チャンクの特徴を抽出してMLアルゴリズムを訓練し、そのシリーズの一部を1または0に分類したいと考えています。extracted_featuresは604行×4832列のスパース行列を含んでいます。それは、各行(中央値、最小値、合計値、最大値、分散値、標準偏差、平均値、長さ)ごとに、timeseriesごとに8つの基本機能の列を作成します。したがって、私はdropna() cuzを使用すると、空のDataFrameが残っているので、それは永遠にselect_featuresを実行し、失敗します。私はなぜそれが各行の列のセットを作成するのか分からず、どうしてこれが起こるのを防ぐことができますか? (これはもっと多くの機能で使いたいですが、私は別の設定を使って同じ問題があります)

答えて

1

私はtsfreshの著者です。最新バージョンを使用していますか?いくつのチャンクがありますか?あなたの辞書が正しく構築されていない可能性があります。

関連する問題