2009-08-22 9 views
3

私はtf-idfを使ってterm frequencyを計算したいと思います。私はあなたが左側にtf-idf値を得なければならない式を起草しました。これは正しいです?Tf-idf:このアプローチは正しいですか?

DOCUMENTためのTF-IDF:

tf-idf(WORD) = occurrences(WORD,DOCUMENT)/number-of-words(DOCUMENT) * log10 (documents(ALL)/(1 + documents(WORD, ALL))) 
  • occurrences(WORD,DOCUMENT)WORDDOCUMENT
  • number-of-words(DOCUMENT)の出現数:DOCUMENT
  • documents(ALL)の単語数:データベース
  • 内のドキュメントの数
  • documents(WORD, ALL):含まれているデータベース内の文書の数WORD

あなたが私を助けることができれば素晴らしいと思います。事前にどうもありがとうございました!

+0

あなたはこのhttp://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idfに助けることができますか? –

答えて

1

ウィキペディアの記事によると、それは正しいです、あなたはウィキペディアの記事が示唆するように、ドキュメント(WORD、ALL)の代わりに1 +ドキュメント(WORD、ALL)に変更したいかもしれません。

TF-IDF on wikipedia

+0

ありがとう!今それは完全に正しいはずです!私はドイツ語のWikipediaの記事を読んで+1は言及されていませんでした。だから良いヒントをありがとう。 – caw

関連する問題