私はHTMLコンテンツ抽出のためにHtmlCleanerライブラリを使用しています。それはかなり限られていますが、かなり機能します。& nbsp;のような特殊エンティティを処理すると、 HtmlCleanerで
&ポンドや引用符などの特殊文字は扱えません。 URL:http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html、価格にxpathを渡すと、それは私に "&ポンド; inplace of £
これまたは他の解決方法を処理するためにhtmlcleanerで設定できるプロパティはありますか。
おかげ
Jitendra
私はStringEscapeUtilsについて知らなかった。ありがとう。私の場合のコンテンツ抽出はxpathsに基づいています。 Jsoupはそれをサポートしていますか? – RandomQuestion
jsoupはコンテンツ抽出用のCSSセレクタをサポートしています。あなたが必要とすることをする必要があります。 –