表には数千もの人気のある音楽バンドがあり、これらの名前はさまざまな方法で書き込むことができます。たとえば、次のようにSQLテーブルの列に類似のフレーズをグループ化するにはどうすればいいですか?
- 「ハンガリーのレッド・ホット・チリ・ペッパーズ」
- 「コンサートレッド・ホット・チリ・ペッパーズ」
- 「レッド・ホット・チリ・ペッパーズ」
- 「レッドホット(CAにライブ)」
各行にフィールドgroup_idがあります。この分野はすべての類似アーティストにとって同じでなければなりません。たとえば、グループの中で最も小さいID:
id | name | group_id
-------------------------------------------------------
1137 | "Red Hot Chili Peppers in Hungary" | 1137
1138 | "Concert Red Hot Chili Peppers" | 1137
1139 | "Red Hot Chili Peppers" | 1137
1140 | "Red Hot (Live in CA)" | 1137
は今は、すべての行で空をGROUP_ID。どのように正しく似たような名前を組み合わせて割り当てますか?group_id?例えば
質問の文脈で「類似」の定義をより正確に指定できますか? –
Google: "Levenshtein distance"たぶんあなたのデータベースのための実装があります。 –
少し書式設定を手伝ってくれましたが、たくさんのnbsp; -sは削除されています。 – peterh