5
私はテレビ番組やその他のメディア(ゲーム、映画など)用のスクレーパーを書いていますが、すべてのソースが特定のショーのために同じ方法でフォーマットされているわけではありません。たとえば、1つのソースはダッシュで字幕を表し、他のソースではセミコロンを表すことがあります。私は現在、Levenshtein距離を使用して、スクラップしたデータとTVショーファイル名から抽出したデータを比較していますが、アルゴリズムが文章よりも短い短い文字列用に設計されているかどうかは疑問でした。このニーズに適したアルゴリズムはありますか?テレビ番組のタイトルを比較するのに最適な文字列距離アルゴリズムは何ですか?