テキスト内の一般的なフレーズを検索する

これまではテキストの中に共通の単語を見つけるコードを書いてきましたが、テキストの中に共通のフレーズを見つける既知の方法があるのか不思議でした。（Javaで）テキスト内の一般的なフレーズを検索する

Luceneまたはnlpなしでこれを達成する方法を知っている人はいますか？他にどんなツールやソリューションがありますか？

2012-05-08 rockit

この質問は非常に一般的なものです – ant

あなたがしたいことを正確に知らなくても、答えを出すのは難しいです。あなたの問題への素朴な答えは、テキストを句読点で分割し、データ構造を使ってテキスト内のすべての文のカウンタを格納し、テキストから解析するすべての文に対してカウンタをインクリメントします。

たとえば、優先度キューを使用して、センテンスをカウンターで並べ替えることができます。次に、n個の最も一般的な文の最大要素n回を削除するか、カウンタが必要な数よりも大きくなるまでポップセンテンスを取り除くことができます。

ただし、正確な文章が必要ない場合は、優先キューに格納する内容を変更するか、別のアルゴリズムをすべて使用する必要があります。

これは少なくとも役立ちます。

2012-05-08 20:43:29 Rafael

ビット間接的なアルゴリズム：すべての前に、その後のすべての文章ストア文中の全ての単語について、ワード、その後、残りの文でソートして：

一つは、順列インデックスを作成することができます。前の部分は無関係です。

次に、2つ以上の単語の共通のフレーズを数えることができるはずです。

2012-05-08 20:58:44

答えて