2011-01-28 6 views
1

逆文書freqencyが定義される:次のように逆文書頻度

IDF(用語、ドキュメント)= TF(用語)*ログ(1 + N/DF(用語))

TF(用語)= '文書中の用語の頻度'、n = '文書の数'、df(用語)= '用語を含む文書の数'。

DF(用語)について興味があるだけ - 私はそれが複数回用語が含まれている場合でも、ドキュメントのものを数えるのですか?

また、それはLuceneの(.NET)で、このSTATを決定するのは簡単ですか!私は後者を使用し始め、リレーショナルデータベースを現時点で使用しています。

ありがとうございました。 LuceneのでIDFを使用するための

クリスチャン

答えて

4

check the API for example here.

あなたは一度だけカウントされ、ドキュメントに関する権利です。考え方は、ログ部分に下限のある関数を得ることです。このように:あなたは舞台裏IDF理論に興味がある場合は

enter image description here

、あなたはthis paper.

HTHでのぞき見て!もちろん

+0

おかげで - 私は紙を消化する必要があります。 APIリンクは論文を指し示しています - これは間違いでしょうか?ありがとう! – cs0815

+0

@csetzkomありがとう。リンクが修正されました。がんばろう! –

+0

ありがとうございます。私はまだLuceneのAPIについてかなり無知だが、どのように私は(単一の単語のように)文書及び用語を与えられたIDFを得るのですか? IDF(用語用語、サーチャー検索者は) – cs0815

1

あなたは一度DF(用語)をカウントする必要があります。したがって、別の言葉を得るために単語をグループ化する必要があります。優れた

See my class IDF here

関連する問題