自分のプログラムのインデックスを作成したいと考えています。最も重要なステップの1つは、テキストを正規化することです。例: 私は空白、句読点([])と特殊文字(@)をフィルタリングする "macproapple"に "[(Mac Pro @apple)]"を変換する必要があります。私のコードは次のようなものです:java:テキストを正規化する方法は?
StringBuilder sb = new StringBuilder(text);
sb = filterPunctuations(sb);
sb = filterSpecialChars(sb);
sb = filterBlankSpace(sb);
sb = toLower(sb);
これは多くのStringオブジェクトを生成するため、私はStringBuilderを使用することにします。しかし、私はStringBufferでそれを行う方法を知らない。誰にでもいくつかの提案がありますか?私はまた、中国語の文字を処理する必要があります。
http://stackoverflow.com/questions/1805518/replacing-all-non-alphanumeric-characters-with-empty-strings – sgowd
であるが、StringBufferのは」doesnのt replaceIllメソッドを持っています – remy