私はtsfreshでextract featuresメソッドを使用して、時系列のコレクションからフィーチャを抽出しています。(Python)tsfresh adds_featuresは、NaNがたくさんある巨大なデータフレームの列を作成します
ところ、コラムid
は一つの値が、辞書内の各データフレームごとに異なるがある:基本的に、私が持っていることは、このように見えるデータフレームの辞書があります。私は以下を行います:
exracted_features = extract_features(subsets, column_id='id', column_value = '#text', feature_extraction_settings=MinimalFeatureExtractionSettings())
ここで、サブセットはデータフレームを含む辞書です。私は基本的に大きな一回のセリを別々の塊で切り取り、それらを辞書に入れます。今度は、各チャンクの特徴を抽出してMLアルゴリズムを訓練し、そのシリーズの一部を1または0に分類したいと考えています。extracted_features
は604行×4832列のスパース行列を含んでいます。それは、各行(中央値、最小値、合計値、最大値、分散値、標準偏差、平均値、長さ)ごとに、timeseriesごとに8つの基本機能の列を作成します。したがって、私はdropna()
cuzを使用すると、空のDataFrameが残っているので、それは永遠にselect_features
を実行し、失敗します。私はなぜそれが各行の列のセットを作成するのか分からず、どうしてこれが起こるのを防ぐことができますか? (これはもっと多くの機能で使いたいですが、私は別の設定を使って同じ問題があります)