0
2つのコーパス(コーパス1 &コーパス2)があり、コーパス1の文書にコーパス2の剽窃文が含まれています。コーパス1の文書間の類似度をTf-次のようにコーパス2における用語の転置インデックスは、構築された 2つのコーパスのTf-Idf計算
コーパス2にドキュメントに対して:まもなく、それぞれ2つの文比較のために、私は2つのTf-IDFベクトルを構築していますし、私コサイン類似性を用いて類似性を測定する。
私の質問は、コーパス1の文章に関連するベクトルの構築過程で、私はコーパス2のインデックスを使ってIdfをX項に関連する文書を集計して得ました。コーパス1にある用語はコーパス2で利用できないため、Tf-idf関数はこれらの用語に対して0を返すためです。または私はコーパス1の別のインデックスを作成しなければなりません(これは私の意見ではTf-idfのパワーを排除します)。