私はmarkdownを含む40〜50個のテキストファイルのコレクションを持っています。それらの中には重複する単語、文章、段落が含まれているものもあります。私は、ファイルをスキャンし、一致(またはそれに近いもの)を特定するのに役立つスクリプト/アルゴリズムを探しています。そんなことをどこで見つけることができますか?このタイプのものをオンラインで検索すると、他のタイプの問題の結果が得られましたが、これは問題ではありません。私の検索範囲を狭めるのに役立つ手がかりをいただければ幸いです。Pythonを使用してファイルコレクション内の重複するテキストを検索して削除します
0
A
答えて
1
基本的に、簡単な無理矢理の力ですべての問題を解決できます。しかし、あなたの要件(タイミング、メモリ、...)に依存する別のアルゴリズムを検討する必要があります:Boyer-Moore、Rabin-Karp文字列検索アルゴリズム、Knuth-Morris-Prattアルゴリズム。
+0
ありがとう!これはまさに問題のドメインをよりよく定義して検索を続けるために必要な答えです。ここで私が見つけたものについてもっと情報を投稿します。 – rolfedh
関連する問題
- 1. 崇高テキスト:すべての重複を検索し、削除
- 2. Pythonを使用してファイル内の行の重複単語を検索して削除する
- 3. csprojファイルの重複エントリを検索して削除します
- 4. 後半の重複レコードを検索して削除する
- 5. Pythonを使用して重複ファイルを検索する
- 6. Pythonを使用してPDF内のテキストを検索していますか?
- 7. のawkを使用してファイル内の重複チャンクを削除/
- 8. linqクエリを使用して重複行を削除します
- 9. 条件を使用して重複を削除します
- 10. マージソートを使用してアレイ内の重複したエントリを削除する
- 11. Pythonは重複を削除します。
- 12. Pythonを使用してテキストファイル内の行を検索します。
- 13. python pandasは連続して重複を削除します
- 14. Javascriptを使用して重複するコンマを削除する
- 15. テキストを検索して削除し、jqueryまたはjavascriptを使用して画像を挿入します。
- 16. ジャンクションを使用してすべてのJSON配列から重複するテキスト値を削除します。
- 17. 値ではなくインデックスを使用して検索中にリストから重複を削除します
- 18. パンダとPythonを使用して重複を削除してください
- 19. データテーブル内の行を検索して.Net内で削除する
- 20. StringTokenizerを使用してテキスト内の単語を検索する
- 21. 端末を使用してフォルダ内のテキストを検索する
- 22. awkを使用してbash文字列内の重複を削除する
- 23. サブクエリを使用して重複する行を削除
- 24. 行数を使用して重複値を削除する
- 25. MySQLを使用してデータベースから重複を削除する
- 26. xsltを使用して重複を削除する方法
- 27. VBAを使用して重複を削除する
- 28. 挿入ソートを使用して重複を削除する
- 29. UNIONを使用して重複レコードを削除する方法
- 30. Pythonを使用してテキストファイル内の用語を検索しています
問題文はあまり具体的ではありません。重複する単語、文、または段落が欲しいですか?あなたはマッチまたはニアマッチを望みますか?ここでの異なる答えは、異なるアルゴリズムにつながります。 –
あなたが見つけたオンラインの結果をいくつか含めることを検討し、このような他のタイプの問題がどのように異なっているのか、あるいは類似しているのかを教えてください - これが問題の絞り込みに役立ちます – davedwards
ありがとう@Ror_Daultonより具体的には、複数のファイルをスキャンし、長さが約7〜70語の単語の重複シーケンスを特定するスクリプト/アルゴリズムを探しています。ニアマッチ(最大15%のバリエーションを含む)を特定するといいです(オプション)。私の以前の検索結果は、この目標とは全く関係ありませんでした。 – rolfedh