私はOodle、eBay motors、craigslistなどのオンライン車両の広告を検索する検索エンジンを構築しようとしています。私はまた、それらについての標準的な車両名と仕様の大きなデータベースを持っています。私がしたいことは、私が分類されたサイトを通して見つけた各レコードについて、どのような車両モデル、それが(データベースから)スタイルであるかを正確に判断できることです。たとえば、私のdb内のフォード・トラックの標準名は、 2003 Ford F150です。車両検索のための最良のデータマイニング方法は何ですか?
ただし、分類されたサイトでは、「2003 Ford F 150」または「2003 Ford f-150」または「03 Ford truck 150」と呼ばれることがあります。上記の標準名にこれらのテキストを正規化するための効果的なデータマイニング/テキスト分類アルゴリズムはありますか?