次のように逆文書頻度

逆文書freqencyが定義される：次のように逆文書頻度

IDF（用語、ドキュメント）= TF（用語）*ログ（1 + N/DF（用語））

TF（用語）= '文書中の用語の頻度'、n = '文書の数'、df（用語）= '用語を含む文書の数'。

DF（用語）について興味があるだけ - 私はそれが複数回用語が含まれている場合でも、ドキュメントのものを数えるのですか？

また、それはLuceneの（.NET）で、このSTATを決定するのは簡単ですか！私は後者を使用し始め、リレーショナルデータベースを現時点で使用しています。

ありがとうございました。 LuceneのでIDFを使用するための

クリスチャン

2011-01-28 cs0815

あなたは一度だけカウントされ、ドキュメントに関する権利です。考え方は、ログ部分に下限のある関数を得ることです。このように：あなたは舞台裏IDF理論に興味がある場合は

enter image description here

、あなたはthis paper.

HTHでのぞき見て！もちろん

2011-01-28 09:39:38

おかげで - 私は紙を消化する必要があります。 APIリンクは論文を指し示しています - これは間違いでしょうか？ありがとう！ – cs0815

@csetzkomありがとう。リンクが修正されました。がんばろう！ –

ありがとうございます。私はまだLuceneのAPIについてかなり無知だが、どのように私は（単一の単語のように）文書及び用語を与えられたIDFを得るのですか？ IDF（用語用語、サーチャー検索者は） – cs0815

あなたは一度DF（用語）をカウントする必要があります。したがって、別の言葉を得るために単語をグループ化する必要があります。優れた

2012-12-06 23:12:47 FSm

答えて