この本の "TensorFlow Machine Learning Cookbook"のデータ処理では、fit_transform
の機能を使用してscikitの機能を学び、tfidf
のテキストをトレーニング用に学習します。著者は列車を分離して機能テストする前にすべてのテキストデータを提供します。それは真の行動ですか、それとも最初にデータを分離して、電車でtfidf fit_transform
、テストでtransform
を実行する必要がありますか?すべてのデータセットまたはトレーニングデータにtfidf
0
A
答えて
1
私は本を読んでいないし、実際には本の間違いではないかどうかはわからないが、私は2セントを与えるだろう。 scikit学習の文書によると、fit()
が
するために使用されている
はトレーニングセットから語彙やIDFこちらをご覧ください。一方
、fit_transform()
が
語彙とIDFを学習するために使用される、用語文書行列を返します。
transform()
はあなたが適用する必要が設定され、テストがセットには、文書長期行列に文書を変換しながら。訓練に
fit()
と
transform()
(または本質的に両方の操作に参加するだけで
fit_transform()
が)しかし、あなただけ
transform()
テストインスタンス(すなわち、文書)に必要なの両方。テストセットは訓練されたモデルが新
見えないデータポイントにも一般化できるかどうかを評価するために使用されている間
は(学習がfit()
によって達成される)トレーニングセットは学習目的のために使用されていることに注意してください。
+0
はい、それは正しいです、私たちはトレーニングでテストデータを使うべきではありません。すべてのデータセットにfit_transformを適用すると、トレーニングレベルでテストデータを使用していることを意味します。この2つの方法で結果として得られる語彙も異なります。 – keramat
関連する問題
- 1. トレーニングデータseq2seqモデルの追加トレーニングデータ
- 2. Linatableのデータセットまたはデータセット
- 3. 分割データセットをトレーニングとテストに分割する(トレーニングデータには各クラスの200の例があります)
- 4. pythonのtfidfアルゴリズム
- 5. トレーニングデータ
- 6. BaggingClassifierは毎回すべてのデータセットを取ります
- 7. すべてのデータセットのデータ構造ループ
- 8. cnn(alexnet)をトレーニングするためのトレーニングデータのピクチャを並べ替える
- 9. 分類LDAとTFIDF
- 10. Mahout TFIDF辞書ファイル
- 11. ニューラルネットワークの応答はトレーニングデータに対して保証されていますか?
- 12. vb内のデータベースまたはデータセットに含まれるレコードの数を調べる
- 13. トレーニングデータとfit_transformをテストして
- 14. Pythonを使用したApache Spark TFIDF
- 15. シード値はRのトレーニングデータの結果に影響しますか?
- 16. は、私は、このページからすべてのデータセットをダウンロードしたい
- 17. データセットのフィルタですべてのバインドされたコントロールがクリアされます
- 18. wekaは、すべてのデータセットに対して正しく分類されたインスタンスを100%返します
- 19. トレーニングデータにはすべての値が欠落していますが、テストデータの同じ列にはいくつかの値があります。
- 20. トレーニングデータとテストデータ
- 21. すべてのデータセットについてハイチャートを作成
- 22. SVM;トレーニングデータにターゲットが含まれていません
- 23. Tfidf Vectorizerが動作しません
- 24. LSTMはトレーニングデータに余裕がない
- 25. すべてのデータがフェッチされた後にデータセットを繰り返す
- 26. tfidfマトリックスに次の機能を追加する方法は?
- 27. CFPDFFORMは、入力時にソースPDFからすべてのデータセットを削除します!何をすべきか?
- 28. ReportServerインスタンスの*すべての* SSRSレポートのすべての* SSRSデータセットの検索クエリ
- 29. BigQueryはpageTokenのないすべてのデータセットを返しますか?
- 30. トレーニングデータの小数点以下を切り捨てます
このようなシナリオでは、常に現実世界の問題で何をすべきか考えてください。そこでは、すべての利用可能なデータを列車として、そして目に見えない新しいデータをテストとして扱います。このような場合には、テストデータが利用できないので、あなたは何をしますか?利用可能なデータをトレインとテストに分割するプロセスは、同じデータを複製することです。 –
@Vivek Kumarはい、実際には、実際の問題でデータをテストしていないため、すべてのデータに対するfit_transformのアプローチが真ではありません。 – keramat
はい。したがって、列車のデータに対してのみfit()またはfit_transform()を実行します。 –