2012-02-10 12 views
0

Webページからhtmlソースを抽出し、そのソースから電子メールアドレスのようなテキストを抽出する方法を知りました。
htmlソースから電子メールアドレスを抽出

public static String html2text(String html) { 
    return Jsoup.parse(html).text(); 
} 

ようjsoup使用してそれが同様に私に不要なテキストの多くを与えることになるのイム思考。

+0

あなたはJavaを使用していますが、あなたはその質問にタグを付けませんでした。 javascript/jqueryも使用できますか?これは正規表現を使ってかなり簡単ですが、私はJavaで経験はありません。 – elclanrs

+0

私はjavaを使用しています。言及するのを忘れてしまった。 – SoH

答えて

0

すべてのタグを削除できます(電子メールがタグ内にある場合を除く)。その後、正規表現を適用するか、電子メールのパターンと一致するかどうかすべての単語をチェックします。私は通常、それが@を単語の中に含み、.が後に見つかると電子メールとしてマークします。標準の電子メールフォーマットによると、多くの電子メールは一致しません(例:"hello [email protected]")。はいメールは@の前にスペース文字をサポートしています!

0

Shipluは言ったように、Javaを使用している場合は、PatternとMatcherのクラスを見て、最良の解決策は正規表現を使用すると思います。