HTMLファイルをサニタイズしようとしましたが、正しく動作しません。段落や改行タグを除いて、すべて完全にプレーンテキストにしたい。ここに私の浄化コードがあります(このドットは、問題に関係のない私のクラスの他のコードを意味します)。Rails HTMLサニタイズ
.
.
.
include ActionView::Helpers::SanitizeHelper
.
.
.
def remove_html(html_content)
sanitized_content_1 = sanitize(html_content, :tags => %w(p br))
sanitized_content_2 = Nokogiri::HTML(sanitized_content_1)
sanitized_content_2.css("style","script").remove
return sanitized_content_2
end
正しく機能しません。機能がその入力を読み取っているHere is the original HTML file、およびhere is the "sanitized" code it is returning。それは、CSSタグ、JavaScript、およびHTMLコメントタグの本体に残っています。それは私が気づいていない他のものにも残っているかもしれません。段落や改行タグ以外のCSS、HTML、JavaScriptを完全に削除する方法についてアドバイスしてください。
これは、サニタイズよりも構文解析に似ています。 –
うわー、Scribd形式は対処するのには不便です。代わりに要点を提示できますか? –