0
私はファイルのリポジトリを持っています。これらのファイルは、人間によって作成された平易な英語のテキストです。各ファイルには、いくつかの事件を記述する段落はほとんどありません。 ここでは、それぞれの人が異なるため、異なる文法で2つ以上のインシデントを記述することができます。同じ人でも、異なる文法で異なる言葉で事件を書く傾向があります。リポジトリから類似ファイルを探す
どのようにして類似のファイルを検索してクラスタリングできますか?