HTMLタグを持つサーバーから文字列を受信しています。 string1.replaceAll("\\<.*?>","")
のような正規表現を使用してこれらのタグを削除していますが、改行やハイパーリンクも削除されるという問題があります。私は、ハイパーリンクや改行を保持し、他のすべてを削除したい。改行を除くHTMLタグの削除
0
A
答えて
4
HTMLの解析にregexpsを使用しないでください。 HTML(ない何を望んでいたが、やるのは簡単)から完全に取り除くために
:のみ<a>
(およびhref
属性)を保持、選択的にそれを取り除くために
String html = "<h1>I only want<br/>line breaks and " +
"<a href='http://stackoverflow.com'>links</a>, <i>not</i>" +
" the <b>other</b> stuff";
String sansHtml = Html.fromHtml(html).toString();
と私が提案する<br>
タグあなたはJSoupを使用します。
Whitelist whitelist = Whitelist.none().addTags("a", "br").addAttributes("a", "href");
String jsoupHtml = Jsoup.clean(html, whitelist);
1
あなたが最初のいくつかの中間フォーマットで保存しておきたい部品を交換しようと、元の1 AFTEを復元することができr他のタグはすべて削除しました。
string1.replaceAll("\\<br.*?>", "[br]");
string1.replaceAll("\\<a href='(.*?)'.*?>(.*?)\\<.*?>", "[link='$1' desc='$2']");
string1.replaceAll("\\<.*?>","");
string1.replaceAll("\\[br\\]", "<br\\>");
string1.replaceAll("\\[link='(.*?)' desc='(.*?)']", "<a href=\"$1\">$2<\\a>");
それは:)
関連する問題
- 1. mailtoタグの改行を保存するHTMLを削除する
- 2. php htmlメタ記述タグから改行を削除
- 3. 削除改行
- 4. javascript htmlタグを削除してhtmlエンティティを取り除く
- 5. 削除HTMLタグとHTMLエンティティ
- 6. リンクを除くすべてのHTMLタグを削除します
- 7. Djangoテンプレートフィルタhtmlタグを削除
- 8. 削除htmlタグはCodeIgniterの
- 9. PHP JSON HTMLタグの削除
- 10. コーパスからhtmlタグを除くすべてを削除する
- 11. すべてのhtmlタグをSQLファイルから削除/削除
- 12. xsltで空タグと改行を削除するには?
- 13. sedなどのhtmlタグを削除
- 14. 残りのhtmlタグを削除する
- 15. パンダでのhtmlタグの削除
- 16. cURLでhtmlタグを削除する
- 17. 値からhtmlタグを削除する
- 18. 削除HTMLのキーワードやタグとスウィフト3
- 19. htmlタグのJsoup属性削除
- 20. javascript/aspのXML改行を削除
- 21. テキストファイル内の改行を削除する
- 22. 、単一の改行を削除
- 23. HTMLファイルから改行を自動的に削除します
- 24. RegExpとJavaでいくつかのHTMLタグを削除
- 25. Pythonでの改行の削除
- 26. Rubyで改行を削除する
- 27. 改行を削除するPHPフォーム
- 28. 改行記号を削除する
- 29. 改行を削除できない
- 30. PHP html MySQLの行を削除するボタンを削除する
を動作しない可能性がありますので、テストされていないコード[これは常に、関連する感じ](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-自己完結型タグ/ 1732454#1732454)がXML/HTMLを処理するための正規表現を書き出したときに発生します。 – Jens
正規表現解析は、すべての野生のxml/htmlファイルでは機能しません。ファイルが既知の構文である場合にのみ、確実に動作します。 – zapl