5

文書分類でIDF(逆文書頻度)を計算することに疑問があります。私はトレーニングのために複数のドキュメントを持つ複数のカテゴリを持っています。私は、次の式を使用して文書内の各用語のためのIDFを計算しています:文書分類のためのIDF(逆文書頻度)の計算

IDF(t,D)=log(Total Number documents/Number of Document matching term); 

私の質問は以下のとおりです。

  1. 何を意味する「コーパスにおける総数文書を」ん?現在のカテゴリからの、または使用可能なすべてのカテゴリからのドキュメントのカウント
  2. 「文書一致用語の数」とは何ですか?現在のカテゴリまたは使用可能なすべてのカテゴリからの用語一致文書のカウント

答えて

9

Total Number documents in Corpusは、あなたのコーパス内のドキュメントの量です。したがって、文書が20個ある場合は、この値は20です。

Number of Document matching termは、tという用語が何件出現したかのカウントです。私は正しいんだのであれば、あなたは合計で20件の文書を持っており、用語tは、文書の15で発生した場合、その後Number of Documents matching termの値が15

あるこの例の値は、このように今IDF(t,D)=log(20/15) = 0.1249

なり、ドキュメントごとに複数のカテゴリがあり、これらのカテゴリの1つ以上で新しいドキュメントを分類できるようにする必要があります。これを行う1つの方法は、カテゴリごとに1つの文書を作成することです。各カテゴリ文書は、このカテゴリでラベル付けされたすべてのテキストを保持する必要があります。これらの文書でtf*idfを実行できます。

新しい文書を分類する簡単な方法は、カテゴリごとに計算された異なる用語値を使用してクエリの用語値を合計することによって達成できます。製品を計算するために使用される用語値が最も高い結果をもたらすカテゴリは、次に1位にランク付けされます。

クエリの各用語のidfを使用して、クエリのベクトルを作成することもできます。クエリに含まれないすべての用語には、0の値が与えられます。クエリベクトルは、次に、例えばcosine similarityを用いて各カテゴリベクトルとの類似性を比較することができる。

Smoothingは、コーパス内で発生していないクエリの単語を処理する便利なテクニックです。

私はChristopher D. Manning、Prabhakar Raghavan、HinrichSchützeの "Introduction to Information Retrieval"のsections 6.2 and 6.3を読むことをお勧めします。

+0

ありがとう。答えがあります。しかし、あなたは新しい文書を少し精巧に分類して説明してください。それは新しい文書のための一致するカテゴリを取得する方法ですか?その後、どのように新しい文書のための周波数ベクトルを形成するためにマッチングを行う?... –

+0

私は私の答えに情報を追加しました。 – Sicco

+0

助けてくれてありがとう。 –

-1

私はここに用語頻度 - 逆文書頻度を記述した小さな記事を書かれている:ここでhttp://bigdata.devcodenote.com/2015/04/tf-idf-term-frequency-inverse-document.html

は、ポストからの抜粋です:

TF-IDFは、文書の分類で広く使用される最も基本的なメトリックです。 これらの用語を試してみましょう:

用語頻度は、文書内の特定の単語の出現頻度のうち、文書内の他の単語と比較して重要です。

反対に、文書の頻度は、特定のコレクション(異なるカテゴリに分類したい文書)のすべての文書で単語が出現するのに重要です。

関連する問題