私は学校のための大きなデータ割り当てに取り組んでおり、自分のコードを動作させるために、テキストファイルから単語をフィルタリングする必要があります。まれな空白がなくてもJavaフィルタワードがファイル外に出る
私はファイルを読み、replaceAll( "[^ a-zA-Z0-9]"、 "");
しかし、これは問題を引き起こします。私は、スペースでフィルタリングし、いくつかの特別な例は次のようにありますので:
wobbewy!'--'Wobbewy,'
私が手のような言葉:
wobbewywobbewy
のようなスペース上の単語をフィルタリングしてもすることなく、これらの特別な場合を除外するためにとにかくありif文の膨大な量ですか? (複数のスペース)私の
「[^ a-zA-Z0-9]」、「」)を使用しない理由は、 ' - 'はスペースで置き換えられ、スペース文字で分割すると機能します。代わりに:何も置き換えずに、\ w +パターンを使って正規表現を使って単語を検索してください。 – kevcodez
言うまでもなく、単語を区切るために空白を使用しない言語を扱うときには、この問題全体がさらに悪化します。テキストのブロックを単語に分割するだけの言語(タイ語、IIRC?)では、辞書と再帰的なバックトラックアルゴリズムが必要です。 –