逆文書freqencyが定義される:次のように逆文書頻度
IDF(用語、ドキュメント)= TF(用語)*ログ(1 + N/DF(用語))
TF(用語)= '文書中の用語の頻度'、n = '文書の数'、df(用語)= '用語を含む文書の数'。
DF(用語)について興味があるだけ - 私はそれが複数回用語が含まれている場合でも、ドキュメントのものを数えるのですか?
また、それはLuceneの(.NET)で、このSTATを決定するのは簡単ですか!私は後者を使用し始め、リレーショナルデータベースを現時点で使用しています。
ありがとうございました。 LuceneのでIDFを使用するための
クリスチャン
おかげで - 私は紙を消化する必要があります。 APIリンクは論文を指し示しています - これは間違いでしょうか?ありがとう! – cs0815
@csetzkomありがとう。リンクが修正されました。がんばろう! –
ありがとうございます。私はまだLuceneのAPIについてかなり無知だが、どのように私は(単一の単語のように)文書及び用語を与えられたIDFを得るのですか? IDF(用語用語、サーチャー検索者は) – cs0815