2011-08-12 7 views
1

文書内に複数のトークン文字列または句の頻度を見つけたいと考えています。それは私が探している言葉/単一の言葉の頻度ではなく、常に複数の言葉になり、用語の数は動的である...java内の文書内のフレーズ(複数のトークン文字列)の頻度を見つける方法は?

例:文書内の「友人との単語」の頻度を検索する!

ヘルプ/ポインタは大変ありがとうございます。

おかげ Debjani

+0

あなたがして、検索する複数のフレーズがあることを言っていると、あなたは、フレーズのそれぞれの周波数を知りたいですか? – Ali

答えて

3

あなたはバッファReaderを使用して線で文書ラインを読み、[単語/トークン

int count=0; 
while ((strLine = br.readLine()) != null) { 
    count+ = (strLine.split("words with friends").length-1);  
} 
return count; 

EDITの周波数を取得するために、スプリット機能を使用することができます。 そして、あなたがしたい場合に大文字と小文字を区別しない検索を実行するには、

Pattern myPattern = Pattern.compile("words with friends", Pattern.CASE_INSENSITIVE); 
int count=0; 
while ((strLine = br.readLine()) != null) { 
    count+ = (myPattern.split(strLine).length-1);  
} 
return count; 
+1

+1:想像上の分割の使用... – helios

+0

@helios thanks :) – Ankur

+3

フレーズが2行に分割されていると動作しません。 – stivlo

関連する問題