2016-07-25 12 views

答えて

1

用語Tが非常に一般的な場合(たとえばストップワード、 "and"、 "the"など)、多くの文書で見つけることができますが、おそらくすべての文書を取得することには興味がありませんあなたはTという言葉があまりにも多くスコアリングに影響を与えたくないと思うかもしれません。

これはTF/IDF公式のIDF部分の仕事です。これは、より希な用語がスコアに寄与することを意味します。したがって、特定の文書の用語Tの用語TFにIDF全体の文書コーパスに対するその用語の割合。明らかに、特定の用語を含む文書が多くなればなるほど、その用語は関連性が低く/判別できなくなります。

文書Dに数回出現するが他のすべての文書に必ずしも出現しない用語「象」は、他のすべての文書よりも高いスコアを文書Dに与えるのに貢献する。

IDFは無視できるため、ほぼすべての文書に出現する用語「and」はスコアに大きく寄与しません。

+0

ありがとうございました。すべてをクリアしました。 –

+0

恐ろしい、それは助けてうれしい。 – Val