テキストファイルの重複を検出する

テキストデータの重複を検出/削除する最適な方法を見つけようとしています。重複するとは、本当に高い類似性を持つテキストを意味します。たとえば、すべて同じですが、1つのセンテンスです。さらに、その長さは（1つまたは2つの文によって）多少異なる場合があります。このため、ハミング距離はオプションではありません。類似性係数を計算する方法はありますか？用語頻度行列を使うべきですか？テキストファイルの重複を検出する

私のデータについて：私は、JSONファイルに日付、タイトル、本文（内容）を持っています。したがって、類似度係数はこの3つのレベルを含むことができる。

私はアプローチ（コードではない）を探しているので、データを提示する必要はないと思います。

種類について、

出典

2016-03-29 Andres Azqueta

**あなたの**データ**はどのように見えますか？ – ZdaR

あなたはTF-IDFのランキング方式を使用することができます。詳細はこちらをご覧ください：Similarity between two text documents

出典

2016-03-29 14:52:17 arcticless

テキストファイルの重複を検出する

答えて

関連する問題