私は現在、sklearnを使用して、特定の文書を他の文書と比較して類似性を探しているアプリケーションを構築しています。TfIdf学習率/文書重量
LSAのような他のテクニックを使用している場合、古い文書が忘れられたり重要度が低くなるように学習率を調整できます。 TfIdfを使って同様のやり方をするための方法はありますか?文書の「日付」に比例した重みを定義できるといいでしょう。
文書の相対日付にゆっくりと減衰する指数関数を適用し、これに類似度の最終コサインスコアを乗算することを考えていました。これは良いアプローチですか?
私はElasticSearchのようにしています:https://marcobonzanini.com/category/relevance/ –