私はPythonでDataFrameを持っており、データを前処理する必要があります。データを前処理するための最良の方法は何ですか?いくつかの変数には巨大なスケールがあり、他にはないことが分かっています。データにも大きな逸脱はありません。私はpreprocessing.Scale関数で試してみましたが、それは動作しますが、私は機械学習アルゴリズムを進めるのに最良の方法があるのかどうかはわかりません。データ前処理Python
0
A
答えて
0
データの前処理にはさまざまな手法がありますが、sklearn.preprocessingのアイデアを潜在的なガイドラインとして参照することができます。
http://scikit-learn.org/stable/modules/preprocessing.html
前処理は、あなたが勉強しているデータに結合され、一般的には、あなたが探検できている:欠損値を評価
- を、
- 列ごとにその割合を計算することによって分散を計算し、削除分散がゼロに近い変数
- 冗長性を検出するために変数間の相関を評価する
次のようにあなたがパンダに簡単にこれらのスコアを計算することができます
data_file = "your_input_data_file.csv"
data = pd.read_csv(data_file, delimiter="|")
variance = data.var()
variance = variance.to_frame("variance")
variance["feature_names"] = variance.index
variance.reset_index(inplace=True)
#reordering columns
variance = variance[["feature_names","variance"]]
logging.debug("exporting variance to csv file")
variance.to_csv(data_file+"_variance.csv", sep="|", index=False)
missing_values_percentage = data.isnull().sum()/data.shape[0]
missing_values_percentage = missing_values_percentage.to_frame("missing_values_percentage")
missing_values_percentage["feature_names"] = missing_values_percentage.index
missing_values_percentage.reset_index(inplace=True)
missing_values_percentage = missing_values_percentage[["feature_names","missing_values_percentage"]]
logging.debug("exporting missing values to csv file")
missing_values_percentage.to_csv(data_file+"_mssing_values.csv", sep="|", index=False)
correlation = data.corr()
correlation.to_csv(data_file+"_correlation.csv", sep="|")
上記は、それぞれ保持三つのファイル、分散、欠損値の割合と相関結果を生成するであろう。
thisのブログ記事を参照してください。
関連する問題
- 1. Python:前処理テキスト
- 2. Pythonでデータを前処理してクラスコンストラクタに渡す前に
- 3. Pythonルートの前処理ルートパラメータ
- 4. Pythonでのデータ処理
- 5. PythonでのOCR用画像前処理
- 6. Pythonユニバースで前処理された値
- 7. パンダデータフレームの前処理文字列データ
- 8. Spring起動前処理Raw JSONデータ
- 9. 自動エンコーダ用のデータ前処理トリック
- 10. 機械学習データ前処理
- 11. DeprecationWarning:pandasデータフレームのデータを前処理中
- 12. パンダ時系列データの前処理
- 13. 並列処理AWS S3データのPython
- 14. データを順次処理するPythonスレッド
- 15. 前処理
- 16. CXFリクエストの前処理と後処理の処理
- 17. python eveでデータベースに保存する前にデータを処理する方法
- 18. リンクと前処理
- 19. RapidMinerタイムスタンプ前処理
- 20. Freemarker - テンプレート前処理
- 21. bwboundaries - 、MATLAB-、前処理
- 22. XSLアンエスケープ前処理
- 23. 前処理辞書
- 24. 処理タイムアウトエラー(Python)
- 25. スピーチテキスト処理 - python
- 26. Python - テキスト処理
- 27. Pythonマルチスレッドメモ処理
- 28. イベント処理matplotlip python
- 29. Pythonテキスト処理(str.contains)
- 30. 並列処理Python
あなたの質問は非常に一般的なもので、正確に何を探しているのですか?私はあなたに一般的な前処理についていくつかのヒントを与えましたが、あなたが探しているものはわかりません。 – MedAli