2つの文字列の中に単語が多い2つの文字列があります。2つのテキストファイル間の単語一致率のアルゴリズム
私の仕事は、2つの文字列の単語の一致率を見つけることです。誰かが、正確なパーセンテージ/マッチした単語を得るために私にアルゴリズムを提案することはできますか?
例:あなたは、以下のような方法を使用することができます
1. Mason natural fish oil 1000 mg omega-3 softgels - 200 ea
2. Mason Vitamins Omega 3 Fish Oil, 1000mg. Softgels, Bonus Size 200-Count Bottle
**Output** should be 8 words matched between two strings.
どのように重複を処理しますか?両方のサンプルストリングで 'fish 'が2回出現した場合、どのようにカウントに影響がありますか? –
'tokenize'まず文章を作成し、次に' contains() 'などを使って単語をdiffしますか?何をしようとした..? –
「あなたは既に持っている」アルゴリズムとは何ですか? – nicovank