正規表現（またはテクニック）は完全な曲のタイトルからアーティストを推測する？

アーティストの正規表現（または他のテクニック）が、予測できない完全な曲タイトルを計算または「ベスト推測」するのに役立つでしょうか。正規表現（またはテクニック）は完全な曲のタイトルからアーティストを推測する？

次の曲のタイトルからDr Dreを見つける（ユーチューブからの例）：

Xxplosive - Dr. Dre 
Dr Dre - Xxplosive 
Dr Dre- Xxplosive (lyrics) 
Dr. Dre - 05 - The Chronic - Nuthin' But AG Thang

私の目的は、私が正しいアーティストを決定する必要があり、既存のAPIに送信しようとする可能性が最も高い2つのまたは3試合を、見つけることです。

2012-02-13 sgb

これらの5つの入力から2つの出力が得られれば問題ありませんか？たとえば、 "Xxplosive"と "Dr. Dre"はアウトプットとして、どのアーティストがアーティストであるかわかりません。 – FakeRainBrigand

あなたが提供したデータで動作する唯一の方法は、アーチストの文字列を常に知っている場合です。この場合、名前自体を正規表現として使用することができます。 –

私は、文章中のどの単語が名前を表しているかを推測するのに役立つ正規表現はないと思っています...標準の名前でも、最近誰かが音楽家のために思いつくすべてのランダムな仮名... –

/\s*-\s*のような正規表現を使用すると、 "Dr Dre - Xxplosive"が{Dr Dre,Xxplosive}のような配列になります。

そして、いずれかを使用して、あなたの分割セグメントに対して、検索用語Dr. Dreに一致する：

トラックのリストが巨大な場合は、BKTreeを使用してください。

Protip：検索用語の長さに関連してlevenshteinの制限を使用します（文字列が長いほど、上限が高くなります）。

2012-02-14 00:02:55 Regexident

私の要件をはるかに超えていますが、素晴らしい洞察力、ありがとう！ – sgb

なぜ正規表現を使用する必要がありますか？

単純な文字列分割作業を使用するだけではありませんか？文字列をダッシュで分割し、トリムして各ビットをAPIに送ることができます。距離ベースの文字列近接アルゴリズムを使用して、曲タイトルのどのビットがアーティストである可能性が最も高いかを確認することができます

2012-02-14 00:04:42

ええ、私が探しているものを並べ替え、ここで正規表現という言葉を使用するのは完全に厳密ではありません – sgb

答えて