html-parsing

    6

    2答えて

    この質問は何度も答えられたようですが、私はまだ作品をまとめているようです。 すべてのクラスのノード値を名前で取得したいと考えています。例 <td class="thename"><strong>32</strong></td> <td class="thename"><strong>12</strong></td> のために私は、これはループのためにそれを実装について移動する方法を正確にわか

    13

    1答えて

    私はDomCrawlerコンポーネントを使用しています:http://symfony.com/doc/current/components/dom_crawler.html 私は、構文のようにCSSを使用して、特定の属性値を持つ要素を取得したいのですが。以下のリターン1として、 $link = $crawler->filter('#product a[data-type="bla"]'); こ

    16

    1答えて

    は、このHTML私はMonitor $300とKeyboard $20を解析するXPathを使用し <div> <p> <span class="abc">Monitor</span> <b>$300</b> </p> <a href="/add">Add to cart</a> </div> <div> <p> <span clas

    5

    1答えて

    私はWatirとNokogiriを使ってWebページを解析し、それらと対話しています。私は、クリックされたときにDOM要素がスクリプトをトリガするかどうかを識別したいと思います。私の研究から、JavaScriptとchromeの開発ツールでこれが可能であることを理解していますが、Rubyでこれを実現したいと思います。 たとえば、http://worrydream.com。私が表示された画像を調べる

    8

    1答えて

    に「&いない」はどうやら、多くのブラウザは'¬'としてこれを解釈します。私は、&%6Eotで¬を代入したり、フォームの投稿の代わりに、パラメータ化されたURLを取得することにより、代替案のカップルを見つけ <a href="#" onclick="window.location='http://www.example.com?some_param=1¬ify=true';">Click he

    11

    3答えて

    HTMLテキストをRTF文字列に変換する方法を探しています。この仕事をするライブラリはありますか?私は自分のプロジェクトでhtmlコンテンツを動的に取得し、RTF形式でレンダリングする必要があります。 HTMLパーザを使ってHTMLテキストを通常の文字列に変換し、RTF形式に変換するためにPyRTFを使用しようとしています。これを行うことができるよりよい方法はありますか。事前に感謝します。

    34

    3答えて

    私はangularJsに問題があります。私のアプリケーションはサーバーから何らかのデータを要求し、サーバーから返されたデータの値の1つはhtmlの文字列です。私はこの <div>{{{item.location_icons}}</div> ように私の角度テンプレートでそれを結合していますが、あなたは私が何を参照してください期待通りにすると、アイコン画像ではなく、マークアップ は、基本的にはdi

    9

    2答えて

    私は@Alex's approach hereを使用して、組み込みのDOMDocumentを使用してHTML文書からスクリプトタグを削除しました。問題は、Javascriptのコンテンツを含むスクリプトタグがあり、その後に外部のJavascriptソースファイルにリンクする別のスクリプトタグがあり、すべてのスクリプトタグがHTMLから削除されていない場合です。 $result = ' <!doc

    10

    2答えて

    私が取り組んでいるRubyスクリプトでWebページを削り取ろうとしています。このプロジェクトの目的は、どのETFおよび株式ミューチュアルファンドが価値のある投資理念に最も適合しているかを示すことです。 私はこすりしたいページのいくつかの例は以下のとおりです。あなたがルビーのためにお勧めします、そしてなぜかこする何ウェブツール http://finance.yahoo.com/q/pr?s=SPY+

    7

    1答えて

    私はウェブからテーブルを掻き集めて、& nbsp;エンティティはそのまま残しておき、後でHTMLとして再発行することができます。 BeautifulSoupはこれらをスペースに変換しているようです。例: from bs4 import BeautifulSoup html = "<html><body><table><tr>" html += "<td> hello </