2つのHTML文書の類似性を比較するには、w-shingling(Javaの場合)を実装する必要があります。疑問は、帯状疱疹を収集して保存する方法です。これらの文書の1つ(a、rose、is、a、rose、is、a、rose)を仮定しましょう。私は(LinkedListの)連想配列が最も速くないと思う:W-shinglingの実装 - 帯状疱疹の格納
- 他の単語がない場合は、ここで停止します。
- チェック(a)は帯状疱疹リストでoccurency
- それが発生した場合は、そうでない場合は、最初のステップ
- に行くリストに添付し、最初のステップ
ように行きます私は、これは大きな文書では極端に遅くなる可能性があると予測しています。早くするためのヒントを教えていただけますか?