Pythonを使用してファイルコレクション内の重複するテキストを検索して削除します

私はmarkdownを含む40〜50個のテキストファイルのコレクションを持っています。それらの中には重複する単語、文章、段落が含まれているものもあります。私は、ファイルをスキャンし、一致（またはそれに近いもの）を特定するのに役立つスクリプト/アルゴリズムを探しています。そんなことをどこで見つけることができますか？このタイプのものをオンラインで検索すると、他のタイプの問題の結果が得られましたが、これは問題ではありません。私の検索範囲を狭めるのに役立つ手がかりをいただければ幸いです。Pythonを使用してファイルコレクション内の重複するテキストを検索して削除します

出典

2017-08-21 rolfedh

問題文はあまり具体的ではありません。重複する単語、文、または段落が欲しいですか？あなたはマッチまたはニアマッチを望みますか？ここでの異なる答えは、異なるアルゴリズムにつながります。 –

あなたが見つけたオンラインの結果をいくつか含めることを検討し、このような他のタイプの問題がどのように異なっているのか、あるいは類似しているのかを教えてください - これが問題の絞り込みに役立ちます – davedwards

ありがとう@Ror_Daultonより具体的には、複数のファイルをスキャンし、長さが約7〜70語の単語の重複シーケンスを特定するスクリプト/アルゴリズムを探しています。ニアマッチ（最大15％のバリエーションを含む）を特定するといいです（オプション）。私の以前の検索結果は、この目標とは全く関係ありませんでした。 – rolfedh

基本的に、簡単な無理矢理の力ですべての問題を解決できます。しかし、あなたの要件（タイミング、メモリ、...）に依存する別のアルゴリズムを検討する必要があります：Boyer-Moore、Rabin-Karp文字列検索アルゴリズム、Knuth-Morris-Prattアルゴリズム。

出典

2017-08-22 10:48:24 huyluu11

ありがとう！これはまさに問題のドメインをよりよく定義して検索を続けるために必要な答えです。ここで私が見つけたものについてもっと情報を投稿します。 – rolfedh

Pythonを使用してファイルコレクション内の重複するテキストを検索して削除します

答えて

関連する問題