私は比較的新しいPythonのデータサイエンスで、データサイエンスに関するいくつかの競争を模索していましたが、「トレーニングデータセット」と「テストデータセット」と混同しています。いくつかのプロジェクトは両方を統合し、別のプロジェクトは分離しています。 2つのデータセットの背後にある根拠は何ですか?どんな助言も役に立ちます。データ科学のデータとテストデータを
答えて
"トレーニングデータ"と "テストデータ"は、分析したいデータのサブセットを指します。教師付き機械学習アルゴリズムを使用してデータに何かを(たとえば、データポイントをクラスターに分類するために)使用している場合は、アルゴリズムを「訓練」する必要があります。
教師付き機械学習アルゴリズムのいくつかの例には、サポートベクターマシン(SVM)と線形回帰があります。それらを使用して、多くの次元を持つデータを分類またはクラスタリングすることができ、類似したデータポイントをまとめることができます。
これらのアルゴリズムは、「テストセット」で使用される前に、分析されるデータのサブセット(トレーニングセット)で訓練する必要があります。本質的に、このトレーニングは、人間が訓練しているのと同じように、新しいデータを提示するための一般的な解決策を推論するアルゴリズムをアルゴリズムに提供します。
希望すると便利です。
本当に素晴らしい説明、最後の1つの質問、なぜいくつかのモデルの人々合併の訓練とテストのデータといくつかの彼らは別々に保持されます。あなたの助けに感謝。 – iahmed
私の知る限り、あなたのテストとトレーニングのデータは、常に別々に保たれるべきです。その理由は、アルゴリズムを訓練するとき、「未知」であると思われるデータを知らなくてはならないからです。トレーニングセットにテストセットの要素が含まれている場合、そのテストセットは汚染されています。 –
データセットは行のリストであり、トレーニングセグメントとテストセグメントに分割できます。これが行われる理由は、コードのトレーニングプロセスで使用されるデータの行間を明確に分離することです(オブジェクトを学習するために赤ちゃんを「訓練」するために使用するフラッシュカードのように考える) (あなたが物を学ぶために赤ちゃんをテストしているときに)使用されています。アルゴリズムがどのくらいうまく実行されたかについての正確なスコアを得るために、それらを別々にしたいとします(たとえば、テスト時に赤ちゃんが9/10の正解を得た場合)。訓練の行とtestinrowsを混在させた場合、赤ちゃんがトレーニング結果を記憶したかどうか、実際に9/10の新しい画像を認識する方法を実際に知っているかどうかはわかりません。
通常、データセットはコードの実行中に無作為に行を選択することでトレーニングとテストセットをランダムに選択するため、1セットとして与えられます。そうすれば、トレーニングを数回、テストをさまざまな回数実行し、平均を取ることができます。例えば、赤ちゃんは最初に9/10、次は6/10、最後は7/10になるかもしれません。平均精度は73.3%になります。これは一度試してみるよりも良い表現です(これは完全に正確ではありません)。
列車のデータセットは、モデルのトレーニング用であり、訓練を受けた後、訓練されたモデルの精度はどのようにチェックされますか?そのためには、テストデータセットを使用します。通常、利用可能なデータをトレーニング用に1つとテスト用に2つに分割します。
- 1. 科学的データ
- 2. 科学シミュレーションデータ、Mongodb + HDF5のデータ持続性?
- 3. データ科学の同義語と同義語の違いの例
- 4. d3.jsでデータ科学の求人求職を作成
- 5. MPAndroidChartからLineChartで科学データをグラフ化する
- 6. 科学的表記でDataGridviewからcsvにデータをエクスポート
- 7. コンピュータ科学
- 8. コンピュータ科学のための数学
- 9. 最小値の数学/科学記号
- 10. 科学記法と数字のシーケンス
- 11. Pythonでの科学的プロット
- 12. Androidの科学計算ツール
- 13. ハイパフォーマンスコンピューティングなどの学科プロジェクト
- 14. 科学的表記のファクトリー
- 15. 科学プロット用のIronPythonライブラリ
- 16. iOSのGnu科学ライブラリ
- 17. numpyのブロック科学表記
- 18. 科学計測のソフトウェアアーキテクチャ
- 19. 科学計算用QtとVisual Studio
- 20. データ学生としてビュー
- 21. Java科学計算ツール
- 22. 科学記法変換 - スキーム
- 23. ngHandsontable科学的表記
- 24. rpart.plot除外科学記法
- 25. 大学/大学データAPI
- 26. データベース内の学科コースを返す
- 27. matplotlibのインラインプロットの科学記法
- 28. ゲームプログラミングのための材料科学
- 29. 私は同じ科目の学生sidを学ぶsid = "02"
- 30. データ構造とアルゴリズムの学習方法
https://stats.stackexchange.com/questions/19048/what-is-the-difference-between-test-set-and-validation-set – languitar