HTMLページ内のテキストの各セクションのフォントサイズを削り取ろうとしています。私は過去数日間それをやろうとしてきましたが、私は車輪を再発明しようとしているような気がします。私はcssutils、美しいスープのようなpythonライブラリを見てきましたが、幸いにも多くの運がありませんでした。私は自分のhtmlパーサを作って、html内のフォントサイズを見つけましたが、本当に重要なスタイルシートは見ません。私に正しい方向に向かうためのヒントはありますか?HTMLとCSSからのフォントサイズの掻き取り
0
A
答えて
0
ヘッドレスのマシンであれば、firefoxやphantomjsでセレンを使うことができます。ブラウザがそのページをレンダリングすると、その要素を見つけてその属性を取得できます。
のpythonの属性を取得する方法は自明である、Element_obj.get_attribute('attribute_name')
関連する問題
- 1. 掻き取りHTML
- 2. PHPでのHTMLコメントの掻き取り
- 3. htmlテーブルからのデータの掻き取り
- 4. インタラクティブグラフからのデータの掻き取り
- 5. Facebookからの掻き取り
- 6. PythonAnywhereからの掻き取り
- 7. HtmlAgilityPackの掻き取り - html文書から特定のノードを抽出する
- 8. CSS HTML PSDデザインごとのフォントサイズ
- 9. ヘロクとウェブの掻き取り
- 10. Pythonの複数のWebページからのテキストの掻き取り
- 11. ウェブ全体からのデータの掻き取り
- 12. ダーツを使用したウェブからのデータの掻き取り
- 13. Rselenium Jsonlite掻き取り
- 14. BeautifulSoup web掻き取り
- 15. Cheerio web掻き取りエラー
- 16. Pythonでの.aspxページの掻き取り
- 17. Stataへのデータの掻き取り
- 18. のpythonセレン掻き取りTBODY
- 19. GoogleシートXPathの掻き取り
- 20. フラスコ-安らか投げエラーで掻き取りhtmlタグを返そうとすると、JSONシリアライズ可能な
- 21. 掻き寄せ用のhtmlタグが見つかりません
- 22. <script>タグの変更とロックのフォントサイズ - HTML、CSS、JavaScriptの
- 23. HTMLタグ内のファイルからテキストを掻き集める
- 24. エラーコード-102を解釈Nightmare.js掻き取り
- 25. Rウェブ掻き取り日付ピッカー
- 26. XHTML Website掻き取り指導
- 27. ウェブページからのリンクの掻き取り中にエラーが発生しました
- 28. NodeJSとCheerioを使ったWebの掻き取り
- 29. ScrapyとXpathを使用したデータの掻き取り
- 30. DryscrapeとBeautifulSoupを使ったウェブの掻き取り
フォントサイズがビューポートのサイズ、CSSメディアタイプなどに基づいて動的に設定することができますので、これは、やることは非常に、非常に困難になるだろうon - あなたは効果的にページをレンダリングし、フォントサイズをチェックする必要があります。 –
これは本質的に*正しく*行うことは不可能です。これを変更するJavascriptでクライアント側のレンダリングがあるかもしれません。あなたがこれをやりたい理由に応じて、あなたは異なった選択肢を持っています。これを使用してテキストの重要性を判断しようとしている場合は、HTMLタグ自体を使用する方がよいでしょう。実際にフォントサイズが本当に必要な場合は、Phantom.jsやSeleniumなどのPythonバインディングを使用する必要があります。 – ffledgling
@ChristianTernusではデフォルトのビューポートサイズを使用できませんでしたか? – Noah