2016-10-27 6 views
0

私は現在、sklearnを使用して、特定の文書を他の文書と比較して類似性を探しているアプリケーションを構築しています。TfIdf学習率/文書重量

LSAのような他のテクニックを使用している場合、古い文書が忘れられたり重要度が低くなるように学習率を調整できます。 TfIdfを使って同様のやり方をするための方法はありますか?文書の「日付」に比例した重みを定義できるといいでしょう。

文書の相対日付にゆっくりと減衰する指数関数を適用し、これに類似度の最終コサインスコアを乗算することを考えていました。これは良いアプローチですか?

答えて

0

私はそれは良い考えではないと思います。 tfidfスコアは、ドキュメントリポジトリ全体で取得されます。古い用語を非難する場合は、文書リポジトリを更新し続ける必要があります。たとえば:

each month, 
* Remove the 5% oldest document in the repository. 
* Add 5% latest document to the repository. 

この方法で、あなたのTFIDFスコアは自動的にデータの「清涼」を検討している代わりに、例えば、魔法のパラメータのセットを使用して、どのように「日付」に比例した重みを定義します文書の

これは、20ヶ月ごとに全く新しいリポジトリがあるため、古いデータを減衰させるのと同じ効果を実現します。

+0

私はElasticSearchのようにしています:https://marcobonzanini.com/category/relevance/ –

0

私はそれらのElasticSearchは、例えば、に基づいて検索結果を向上させ、どのように詳細な記事、日付が見つかりました:https://marcobonzanini.com/category/relevance/

が、私はこれらのラインに何かをやっています。

関連する問題