2009-07-17 8 views
0

ok、検索エンジンを構築しています。関連ワードを抽出することができる検索モジュールとを含む。私は元のソースtext.isで単語のリストとそれらのオフセットを持っているlevenshtein距離を使用してクエリ文字列とソーステキストの部分(特定の単語のオフセットで始まり、文字列の長さをクエリするまでの間の違いを計算するのは悪い考えです)。これは私がより速く抜粋を生成するのに役立つだろうと思っていたか質問してください。levenshtein距離を使用して抜粋を生成

近接検索などは必要ありません。通常の「ANY」と「ALL」モードのみです。 btw、結果はすでにソートされていますので、今では抜粋世代だけを見ています。ありがとう。

答えて

1

テキストから含まれている単語(およびその数)まで1対多のマッピングを作成します。この「単語のバッグ」ベクトルは、多くの異なる技術に使用することができます。

+0

これは私の計画でしたが、このテクニックは繰り返し回数を減らして速く動くことができました。 – kar

+0

繰り返しの意味を理解できません。そのベクトルを構築するには、一回のパスが必要です。 – bayer

関連する問題