0
テキストデータの重複を検出/削除する最適な方法を見つけようとしています。重複するとは、本当に高い類似性を持つテキストを意味します。たとえば、すべて同じですが、1つのセンテンスです。さらに、その長さは(1つまたは2つの文によって)多少異なる場合があります。このため、ハミング距離はオプションではありません。類似性係数を計算する方法はありますか?用語頻度行列を使うべきですか?テキストファイルの重複を検出する
私のデータについて:私は、JSONファイルに日付、タイトル、本文(内容)を持っています。したがって、類似度係数はこの3つのレベルを含むことができる。
私はアプローチ(コードではない)を探しているので、データを提示する必要はないと思います。
種類について、
**あなたの**データ**はどのように見えますか? – ZdaR