2016-03-29 13 views
0

テキストデータの重複を検出/削除する最適な方法を見つけようとしています。重複するとは、本当に高い類似性を持つテキストを意味します。たとえば、すべて同じですが、1つのセンテンスです。さらに、その長さは(1つまたは2つの文によって)多少異なる場合があります。このため、ハミング距離はオプションではありません。類似性係数を計算する方法はありますか?用語頻度行列を使うべきですか?テキストファイルの重複を検出する

私のデータについて:私は、JSONファイルに日付、タイトル、本文(内容)を持っています。したがって、類似度係数はこの3つのレベルを含むことができる。

私はアプローチ(コードではない)を探しているので、データを提示する必要はないと思います。

種類について、

+0

**あなたの**データ**はどのように見えますか? – ZdaR

答えて

関連する問題