私が理解しているように、IDFは用語を持つ文書の数を計算するために使用されます。事前にすべての文書があるので、トレーニングセットのIDF(TFと一緒に)を計算することができます。しかし、テストセットをあらかじめ用意しておかないと(ウェブクローラーのような)順番にテストドキュメントを取得している場合、テストではドキュメント内の単語のIDFをどのように計算するのでしょうか?テスト時にIDFを計算する(TF-IDFのように)?
4
A
答えて
2
あなたのデータセットが十分な大きさであれば、IDFのトレーニングだけを使用することができます。テストフェーズでは、新しい用語が列車に設定されている場合はトレーニングのIDFを使用し、期間が新しい場合はIDFを計算するために列車セット文書の数を使用します。 いくつかの目的のために、スムージング方法を使用してより良い結果を得ることができます。
0
文書の索引作成/クロール後にのみテストを実行すると、クロールが完了した後にIDFを計算できます。新しい文書や新しい用語に遭遇したときにIDFを計算する必要はありません。 TD-IDFやその他の計算を行う必要があるときに、その場で計算することができます。
これでは不十分な場合でも、何らかの理由で、別のドキュメントデータセットのIDFを使用できます。同じ種類のドキュメントを使用することをお勧めします。
+0
"ドキュメント全体のインデックス作成/クロール後にのみテストを実行すると" - 実際はありません。クローラによってページを受け取ったとき、そのページがその時点で関連性があるか無関係かを判断する必要があります。このような状況では、別のドキュメントデータセットのIDFを計算することは述べていますか? – KillBill
関連する問題
- 1. IDF計算を無効にする
- 2. tf-idfは文章ベクトルの計算にどのように関係するか
- 3. Python tfidfがidfにかかわらず同じ値を返す
- 4. SQL(BigQuery)を使用してTF/IDFを計算するには
- 5. 2つのコーパスのTf-Idf計算
- 6. LuceneのNullPointerException TF-IDFスコア計算ツール
- 7. Pythonの:どのように大規模なデータのためのTF-IDFを計算するためには、
- 8. Luceneを使用してTFIDFスコアを計算する
- 9. 私の語彙のGensimでtf-idfを計算する
- 10. gensimでtf-idfを計算する際の問題
- 11. パンダのDataFrameからIDFを計算する
- 12. sklearn clustering:TF-IDFウェイトデータのシルエット係数を計算する
- 13. クエリのTF-IDFを計算するにはどうすればよいですか?
- 14. 夏時間によるタイムスタンプの計算
- 15. pthread実行時間?どのように計算する?
- 16. ヒュージグラムによる計算の計算
- 17. GridView計算時に
- 18. 時間を加算して合計時間を計算する
- 19. tf-idf値に基づいて相関を計算しますか?
- 20. 計算時にNaNを取得する
- 21. グループ別に時差を計算する
- 22. MySQLの時間の計算時に
- 23. CSS計算による高さ計算()計算方法
- 24. Rails 3アクティブレコード計算:同時に合計と平均を計算する
- 25. JUnitテストの所要時間はEclipseでどのように計算されますか?
- 26. jQueryの各ループの合計時間を計算するには?
- 27. 時間前にPHPで計算する
- 28. STAN計算の時間スケールと反復回数はどのようにして計算されますか?
- 29. C#での日時の計算を計算する
- 30. このアルゴリズムの時間計算量を計算する
この回答は私にとって意味があります。しかし、私があなたが参照することができる論文や記事があるかどうか疑問に思っていますか?そして、私たちがこの問題に使うことができる図書館があるかどうか疑問に思っていますか? – Pedram
これは私の編集されたコメントです:この回答は私に部分的に意味があります。しかし、私があなたが参照することができる論文や記事があるかどうか疑問に思っていますか?問題は、大きなデータセットを使用してその単語のIDFを計算することができますが、テスト文書に新しい単語が追加されたら、すでにモデルを訓練したと言いますが、機能の数は変わりませんトレーニングとテストのセットでは動作しません。 – Pedram