2011-12-28 10 views
0

私はJava経由でテキストファイルを読んで、テキストファイルのすべての電子メールIDとURLを空白にすることになっています。これは、データのノイズを低減するためです。Javaによるテキスト操作

javaには同じようなライブラリ関数がありますか?

+0

この宿題はありますか? – Kylar

+0

いいえ、私は機械学習システムにフィードするためにデータを平滑化するプロセスに入っています。 – Greenhorn

+0

「空白」とはどういう意味ですか? 「電子メールID」とは何ですか? – fge

答えて

2

FileInputStreamおよび/またはBufferedReaderを使用してファイルを読み取ることができます。各行を解析し、正規表現を使用して電子メールやURLパターンに一致するものがあるかどうかを確認し、新しい出力文字列またはストリームを作成して書き出すことができます。

お試しいただいた内容と現在のコードを表示してください。補遺として

、私はこれらを使用しました:成功の程度の差で http://www.regular-expressions.info/email.html http://daringfireball.net/2009/11/liberal_regex_for_matching_urls

+0

ありがとうございました!出来ました! – Greenhorn

0

通常、NLPシステムではテキストがトークン化され、URLや電子メールアドレスを扱うのは、低頻度のトークンをプレースホルダに還元してデータの希薄さを減らす1つのケースです。トークン化が各項目を1つのトークンに保持するのに有能であると仮定すると、トークンを置き換える方が簡単です - しきい値よりも低いすべての単語をプレースホルダで置き換えるのと同じ方法です。

また、このビジネス全体にBaum-Welchを適用することもできます。

0

String.replace()は正規表現と置換文字列(あなたの場合は "")を使用します。この作業を行うには、電子メールのフィールドとURLにregexを使用します。