2017-01-09 5 views
1

私は定期的にウェブページのリストにコメントを刻んでデータベースに挿入するPythonスクリプトを持っています。しかし、それはまだそれがデータベースにないコメントだけを挿入します。次回は、それが既に挿入されているかどうかを確認する必要があるでしょう。彼らの体だけを物語り、それらを単語ごとに比較するのではなく、高速であれば、どのようなハッシュを使うべきですか? Md5または....?2ワードのテキストを単語またはハッシュで比較する

avarageのコメントは約1000語です。私は文字の違いが1つでも異なるハッシュになることは承知していますが、それは問題ありません。

答えて

3

Jaccard Indexのようなものを使用できます。これにより、部分一致を検索することもできます。一致するものを拒否または選択するようにしきい値を設定することもできます(類似テキスト)

MinHashingを探すこともできます。いくつかの文字の違いのメリットが一致し、同じバケット(Locality Sensitive Hashingのチェックアウト)が発生します。しかし、閾値を設定する必要があります。精度/リコールの問題は、あなたが取り組まなければならないものです。

+0

質問は私が使用できるものではありませんが、私は何を使うべきですか? – Jodooomi

関連する問題