同じターム頻度(TF)を含む2つの文書があり、それらのインバース文書頻度(IDF)値も同じであるとします。例えばtfのidf値が同じ文書を検索してランク付けする方法は?
: -
Document1:- tf-idf=0.12
Document2:- tf-idf=0.12
だから、どのように取得し、同じtf-idf
値でこれらの文書をランク付けするには?このリンクより多くの情報http://www.tfidf.com/
同じターム頻度(TF)を含む2つの文書があり、それらのインバース文書頻度(IDF)値も同じであるとします。例えばtfのidf値が同じ文書を検索してランク付けする方法は?
: -
Document1:- tf-idf=0.12
Document2:- tf-idf=0.12
だから、どのように取得し、同じtf-idf
値でこれらの文書をランク付けするには?このリンクより多くの情報http://www.tfidf.com/
のためにそれはあなたがあなたのアプリケーションで実現しようとしているものに依存し
訪問。たとえば、通常はページの上部に表示されるような言葉を好むことがあります。
ヒューリスティックを使用する必要があります。それらのうちの1つは文書の長さにすることができます。詳細な説明がより長い文書にはより良いスコアを与え、抽象的であれば短い文書はより良いランクを得なければなりません。