Total Number documents in Corpus
は、あなたのコーパス内のドキュメントの量です。したがって、文書が20個ある場合は、この値は20
です。
Number of Document matching term
は、t
という用語が何件出現したかのカウントです。私は正しいんだのであれば、あなたは合計で20件の文書を持っており、用語t
は、文書の15で発生した場合、その後Number of Documents matching term
の値が15
あるこの例の値は、このように今IDF(t,D)=log(20/15) = 0.1249
なり、ドキュメントごとに複数のカテゴリがあり、これらのカテゴリの1つ以上で新しいドキュメントを分類できるようにする必要があります。これを行う1つの方法は、カテゴリごとに1つの文書を作成することです。各カテゴリ文書は、このカテゴリでラベル付けされたすべてのテキストを保持する必要があります。これらの文書でtf*idf
を実行できます。
新しい文書を分類する簡単な方法は、カテゴリごとに計算された異なる用語値を使用してクエリの用語値を合計することによって達成できます。製品を計算するために使用される用語値が最も高い結果をもたらすカテゴリは、次に1位にランク付けされます。
クエリの各用語のidf
を使用して、クエリのベクトルを作成することもできます。クエリに含まれないすべての用語には、0
の値が与えられます。クエリベクトルは、次に、例えばcosine similarityを用いて各カテゴリベクトルとの類似性を比較することができる。
Smoothingは、コーパス内で発生していないクエリの単語を処理する便利なテクニックです。
私はChristopher D. Manning、Prabhakar Raghavan、HinrichSchützeの "Introduction to Information Retrieval"のsections 6.2 and 6.3を読むことをお勧めします。
ありがとう。答えがあります。しかし、あなたは新しい文書を少し精巧に分類して説明してください。それは新しい文書のための一致するカテゴリを取得する方法ですか?その後、どのように新しい文書のための周波数ベクトルを形成するためにマッチングを行う?... –
私は私の答えに情報を追加しました。 – Sicco
助けてくれてありがとう。 –