私はそれぞれ100個の文字列要素からなる10個の順序付けられていないリストがあります。どのリストが他のリストと重複度が高い(たとえば50%+)か、どのリストが重複してリストされているかを見つける最速の方法は何ですか?リストがn個ある場合、どの文字列のリストが似ているかを見つける最も効率的な方法は何ですか?
各10,000文字列の順序付けられていないリストを1,000,000,000個まで拡張するとどうなりますか?これらのリストを特定する最も効率的な方法は何ですか?
私はそれぞれ100個の文字列要素からなる10個の順序付けられていないリストがあります。どのリストが他のリストと重複度が高い(たとえば50%+)か、どのリストが重複してリストされているかを見つける最速の方法は何ですか?リストがn個ある場合、どの文字列のリストが似ているかを見つける最も効率的な方法は何ですか?
各10,000文字列の順序付けられていないリストを1,000,000,000個まで拡張するとどうなりますか?これらのリストを特定する最も効率的な方法は何ですか?
これは遅い操作です。 すべてのリストからセットを作成します。 次に、あるものを他のものと比較し、あるスコアをハッシュテーブルなどに保持して、 を次に続けてもう一度やり直してください。 これは非常に遅く、規模が拡大しませんが、探しているドメインによっては、その操作に特化したアルゴリズム(およびデータ構造)がある可能性があります。 ファジィ検索や文字列マッチングなど。 あなたの質問は広すぎます。あなたは何をしようとしているのですか?
2つのドキュメントの類似点を探したい場合は、TfidVectorizeをご覧ください。いくつかのサンプルリストやドキュメント、希望する出力を提供できますか?
これは役に立ちました、ありがとう!これはちょうど私の友人が私に尋ねた抽象的な質問なので、私はここで仕事をしようとしている実際のデータはありません。 – user7418754
これは意味があります。私は主に、二次的な時間よりも速い方法でこのタイプの比較を行うことが可能かどうか疑問視していました。私はその質問が幅広いことに同意しますが、これは私の友人が私に尋ねた抽象的な質問だったからです。分析しようとしている特定のドキュメントセットがありません。ありがとう! – user7418754