私はJava経由でテキストファイルを読んで、テキストファイルのすべての電子メールIDとURLを空白にすることになっています。これは、データのノイズを低減するためです。Javaによるテキスト操作
javaには同じようなライブラリ関数がありますか?
私はJava経由でテキストファイルを読んで、テキストファイルのすべての電子メールIDとURLを空白にすることになっています。これは、データのノイズを低減するためです。Javaによるテキスト操作
javaには同じようなライブラリ関数がありますか?
FileInputStreamおよび/またはBufferedReaderを使用してファイルを読み取ることができます。各行を解析し、正規表現を使用して電子メールやURLパターンに一致するものがあるかどうかを確認し、新しい出力文字列またはストリームを作成して書き出すことができます。
お試しいただいた内容と現在のコードを表示してください。補遺として
、私はこれらを使用しました:成功の程度の差で http://www.regular-expressions.info/email.html http://daringfireball.net/2009/11/liberal_regex_for_matching_urls
。
ありがとうございました!出来ました! – Greenhorn
通常、NLPシステムではテキストがトークン化され、URLや電子メールアドレスを扱うのは、低頻度のトークンをプレースホルダに還元してデータの希薄さを減らす1つのケースです。トークン化が各項目を1つのトークンに保持するのに有能であると仮定すると、トークンを置き換える方が簡単です - しきい値よりも低いすべての単語をプレースホルダで置き換えるのと同じ方法です。
また、このビジネス全体にBaum-Welchを適用することもできます。
String.replace()は正規表現と置換文字列(あなたの場合は "")を使用します。この作業を行うには、電子メールのフィールドとURLにregexを使用します。
この宿題はありますか? – Kylar
いいえ、私は機械学習システムにフィードするためにデータを平滑化するプロセスに入っています。 – Greenhorn
「空白」とはどういう意味ですか? 「電子メールID」とは何ですか? – fge