html-parsing

    12

    1答えて

    私はHTML Parserを使用して、Webサイトからのデータを廃止し、HTMLコードを削除しています。私は美しいスープのような様々なモジュールを知っていますが、 "外側"のモジュールに依存しない道を選ぶことに決めました。 Eloffから供給されたコードのコードがあります:Strip HTML from strings in Python from HTMLParser import HTMLPa

    0

    2答えて

    最初にオフAndroidアプリのプログラミングで動作するHTMLパーサーでも、 toは、Android開発者のWebサイトに記載されているhtmlコマンドです。その理由は、Zelda Wikiaにアクセスできるアプリを作っていて、私が先に進めたいMediaWiki APIを使ってビデオゲームのタイトルなどのすべてをハードコーディングする代わりに、私が見つけたコマンドはこれでした: http://z

    5

    2答えて

    私はXML/HTML解析を初めて行っています。重複を適切に検索するための正しい言葉を知らない。 私はこのようになります。このHTMLファイルがあります。今、私はそれから00:00:00、00:00:29とI'm great!が必要 <body id="s1" style="s1"> <div xml:lang="uk"> <p begin="00:00:00" end="00

    4

    2答えて

    XPathを使用して、すべての内部リンクを取得するためのHTML Webページを解析します。 DOMXPathはhrefで提供されるすべてのリンクを返します。内部の外部リンクを分離するにはどうすればよいですか? 外部リンクを削除する一連の文字列チェックを導入しました。しかし、問題は、このような他のドメインへの内部リンク(サブドメインを含む、本ドメインへのリンク)および外部リンクを(区別するための最

    4

    2答えて

    DOMのような標準的な方法があり、HTMLページを選択的に解析することができますが、解析対象のメインテキストがどこにあるのかを検出することができますか? キーワードをキャプチャするために分析されるメインテキストは、メニュー、サイドバー、フッターなどと混在しています。クローラがメニューやサイド部分からキーワードをスキップする方法を教えてください。 私は、さまざまなHTMLページからキーワードを取得す

    0

    1答えて

    PHPを始めたばかりで、このテーブルを解析しようとしていますhttp://bit.ly/KjbWWf。 最初の3つの列が必要です。私はDOMとSimpleHtmlDomを使ってみましたが、HTMLテーブルはやや複雑です。 アドバイスはありますか?

    5

    1答えて

    他のすべてのコンテンツを変更しないで、HTMLファイルの一部の要素を置き換えたいとします。 Document doc = Jsoup.parse("<div id=title>Old</div >\n" + "<p>1<p>2\n" + "<table><tr><td>1</td></tr></table>"); doc.getElementById("title").t

    5

    1答えて

    私はこのURLからプロキシリストを取得しよう: Free proxy list これはクールになるが、ポート番号は動的なJavaScriptコンテンツです。このページからJavaScriptで生成されたコンテンツを取得するにはどうすればよいですか?私はjsoupとdjNativeSwingを持っていますが、私はバックグラウンドスレッドでこれをしたいです。 JWebBrowser webBrowse

    5

    1答えて

    私がやっていることは、TweetボタンやFacebook Share/Likeボタンと基本的に同じことです。 1つのデータの関連タイトル。私が考えることができる最も良い例は、あなたが多くの記事を含むウェブサイトのフロントページにいて、Facebook Likeボタンをクリックしたときです。それから、ポストの適切な情報が「Like」ボタンに(最も近い)相対的に表示されます。一部のサイトにはOpen

    8

    3答えて

    私は恐ろしい(それは私だと思いますが)HTML構造を持つHTMLファイルを解析しようとしています。パーサ。後で私はSimple HTML Dom parserを使ってみました。なぜなら、多くの人がそうしてお勧めしているからです。 私はsimple_html_dom.phpが必要で、オブジェクトを作成しました。それらはうまくいくようですが、require()関数は "1"を返し、var_dump()