2016-09-09 5 views
0

HTMLページ内のテキストの各セクションのフォントサイズを削り取ろうとしています。私は過去数日間それをやろうとしてきましたが、私は車輪を再発明しようとしているような気がします。私はcssutils、美しいスープのようなpythonライブラリを見てきましたが、幸いにも多くの運がありませんでした。私は自分のhtmlパーサを作って、html内のフォントサイズを見つけましたが、本当に重要なスタイルシートは見ません。私に正しい方向に向かうためのヒントはありますか?HTMLとCSSからのフォントサイズの掻き取り

+2

フォントサイズがビューポートのサイズ、CSSメディアタイプなどに基づいて動的に設定することができますので、これは、やることは非常に、非常に困難になるだろうon - あなたは効果的にページをレンダリングし、フォントサイズをチェックする必要があります。 –

+0

これは本質的に*正しく*行うことは不可能です。これを変更するJavascriptでクライアント側のレンダリングがあるかもしれません。あなたがこれをやりたい理由に応じて、あなたは異なった選択肢を持っています。これを使用してテキストの重要性を判断しようとしている場合は、HTMLタグ自体を使用する方がよいでしょう。実際にフォントサイズが本当に必要な場合は、Phantom.jsやSeleniumなどのPythonバインディングを使用する必要があります。 – ffledgling

+0

@ChristianTernusではデフォルトのビューポートサイズを使用できませんでしたか? – Noah

答えて

0

ヘッドレスのマシンであれば、firefoxやphantomjsでセレンを使うことができます。ブラウザがそのページをレンダリングすると、その要素を見つけてその属性を取得できます。

のpythonの属性を取得する方法は自明である、Element_obj.get_attribute('attribute_name')

+0

セレンは私が探していたものです。ありがとう! – Noah

+0

私はちょうどクロームでそれを試み、それは働いたが、それは痛いほど遅かった。今はFirefoxで動作するようになっています。ヒントをありがとう! – Noah

+0

スピードがあなたが探しているもので、テストの進捗状況が見えないのであれば、PhantomJSをお勧めします。ユーザーインターフェイスのないフルブラウザであり、非常に高速です。これはすぐに動作し、PATH環境変数に実行可能パスをインストールしておくだけです。 – Dalvenjia

関連する問題