2011-07-24 10 views
4

htmlunitを使用してWebページをスクラップしているときに、コンソール出力にあふれるような警告が表示されることがあります。外部からhtmlunitのjavascriptが読み込まれるようにフィルタリングする

Jul 24, 2011 5:12:59 PM com.gargoylesoftware.htmlunit.javascript.StrictErrorReporter warning 
WARNING: warning: message=[Calling eval() with anything other than a primitive string value 
will simply return the value. Is this what you intended?] sourceName=[http://ad.doubleclick.net/adj/N5762.morningstar.com/B5553006.25;sz=728x90;click0=http://ads.morningstar.com/RealMedia/ads/click_lx.ads/www.morningstar.com/quicktake/fund/L34/648978540/TopLeft/Morningstar/JPM_FRpt_728x90_Jul_3827448/Fund_Reports_728x90_content.html/656d5477595534723465554144664a2b?;ord=648978540?] line=[356] lineSource=[null] lineOffset=[0] 

私は

  • http://adからJavaScriptを無視htmlunit持つことができる方法はあります。*
  • http://ads。*

あるいは単に

同様に、htmlunitは、特定の部分文字列を含むか、正規表現に一致するウェブページはJavaScriptを解釈持つ方法はありますか?

+0

私はあなたがこれを行うことはできないと信じていますが、それは潜在的に有用と思われます。ソースをすばやく掘り下げても、フックはありませんでした。代わりに、これらの警告を記録しないようにLog4jに指示するだけかもしれません。 –

+1

@ロード、チップのおかげで。私は元のポストでこれを言及していませんでしたが、JavaScriptをフィルタリングすると、パフォーマンスも向上するはずです。 htmlunitは、犬を遅くすることができ、jsファイルをダウンロードする必要がなく、実行するjavascriptを少なくすることができます。 – DannyTree

答えて

2

ScriptPreProcessorを実装することで、不要なJavaScriptを削除することができます。あなたのScriptPreProcessorはあなたが実行したくないjsvascriptを検出し、それをWebサイトから削除することができます。

まだ試していませんが、うまくいく可能性があります。

+0

私も同じ問題に直面した – Shashank

関連する問題