文書内に複数のトークン文字列または句の頻度を見つけたいと考えています。それは私が探している言葉/単一の言葉の頻度ではなく、常に複数の言葉になり、用語の数は動的である...java内の文書内のフレーズ(複数のトークン文字列)の頻度を見つける方法は?
例:文書内の「友人との単語」の頻度を検索する!
ヘルプ/ポインタは大変ありがとうございます。
おかげ Debjani
文書内に複数のトークン文字列または句の頻度を見つけたいと考えています。それは私が探している言葉/単一の言葉の頻度ではなく、常に複数の言葉になり、用語の数は動的である...java内の文書内のフレーズ(複数のトークン文字列)の頻度を見つける方法は?
例:文書内の「友人との単語」の頻度を検索する!
ヘルプ/ポインタは大変ありがとうございます。
おかげ Debjani
あなたはバッファReaderを使用して線で文書ラインを読み、[単語/トークン
int count=0;
while ((strLine = br.readLine()) != null) {
count+ = (strLine.split("words with friends").length-1);
}
return count;
EDITの周波数を取得するために、スプリット機能を使用することができます。 そして、あなたがしたい場合に大文字と小文字を区別しない検索を実行するには、
Pattern myPattern = Pattern.compile("words with friends", Pattern.CASE_INSENSITIVE);
int count=0;
while ((strLine = br.readLine()) != null) {
count+ = (myPattern.split(strLine).length-1);
}
return count;
なぜ正規表現を使用しないのですか?正規表現はこの種のタスクに最適化されています。
http://download.oracle.com/javase/1.5.0/docs/api/java/util/regex/Matcher.html
あなたがして、検索する複数のフレーズがあることを言っていると、あなたは、フレーズのそれぞれの周波数を知りたいですか? – Ali