2012-03-06 5 views
0

私はいくつかのテキスト(例:100)を持っています。テキストグループから最もユニークなテキストを取得

私はそれらの中で最もユニークな10を保ちます。私は100x100マトリックスを作って、それぞれのテキストをLevenshteinアルゴリズムと比較しました。

最もユニークな10個のアルゴリズムを選択するアルゴリズムはありますか?

EDIT:

何私がしたいことは関係なく、私のセットの第一の要素のこのNテキストの間の距離を最大化N最もユニークなテキストです。

私はこれらのテキストをウェブに公開するため、最もユニークなものを求めています。私は近くの複製を避けたいと思います。

答えて

0

長いコメントではなく、答えは...

私は、あなたが明確に十分なあなたの条件(複数可)を指定したとは思いません。あなたの10の文字列のセットの最初の要素をどのように選択しますか?他の文字列との距離が最も長い文字列(配列の中で最大の要素を探しているもの)か、他のすべての文字列との距離が最も大きい文字列か(その場合、最大の行配列内の列和)。

ほとんどの遠方の文字列にN(またはあなたが示唆するように10)に移動すると、いくつかの選択肢があります。

アレイ内の最大N個の距離を選択できます。私はあなたのデータを見たことがないと思うが、他の文字列から最も遠い文字列も、他の文字列からも最も離れている可能性がある - あなたの配列のN個の最大のエントリのいくつか同じ行または列に存在します。

最大の行合計を持つN個の文字列を選択するだけで済みます。

または、おそらく、そのクラスタ内のすべての文字列と残りの100-N文字列内のすべての文字列の間の距離を最大にするN個の文字列のクラスタを探しています。これは、むしろ明らかにクラスタリングアルゴリズムを見ることにつながるかもしれません。

要件を明確にして質問を編集することをお勧めします。

+0

はい、あなたは正しいです、質問が編集されました。 – Ricardo

0

これは固有値問題のように見えるので、私は行列上でPower iterationを実行しようとし、結果のベクトルから90個の最高値を拒否します。電力の反復は通常、10回の反復で非常に高速に収束します。 BTW:この解は類似行列を仮定する。あなたの行列の項目が* dis *類似( "距離")の尺度である場合は、それらの逆を使用する必要があります。

+0

ありがとうございますが、力の反復で私に最もユニークなものはありません – Ricardo

+0

テキストのコレクションをグラフ/ネットワークとして考えると、相互に関連した/関連性の高いテキストはクラスタの中心にあり、無関係なものは外にいてください。しかし、多分あなたは "最もユニークな"の別の定義を使用します。 (私にとってそれは「残りの部分とは異なる」)。 – wildplasser

+0

「最もユニークな」という意味を明確にするために質問を編集しました。助けてくれてありがとう – Ricardo

関連する問題