2012-01-19 10 views
0

は、私は、複数のニュースソース(私の会社が代金を支払うものも)から取得しているいくつかのニュースの見出し(単なる文字列)の配列を持っています。多くの場合、見出しは似ていますが、単語に一致する単語はありません。私はGoogleのニュースがそれをしない方法と同様に、それらを試してみて、バケットにしたいと思います。グループ共通の検索結果の見出し

これを行うにはそこアルゴリズムはありますか?私はこのスクリプトのためにrubyやpythonを使うことができます。

ありがとうございます! Ruby用

答えて

1

は、text宝石、特にLevenshtein distance 2の間の文字列を見てください。

+0

おかげPhrogz。これはトリックでした。 http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance:私はまたdifferente言語でいくつかの実装を持っているのwikiブックページへのリンクを追加します – Poul

関連する問題