jericho-html-parser

    1

    1答えて

    私はアプリケーションからジェリコパーサーを使用して、軽量版のWebページを取得し、そこからいくつかの部分を抽出します。ですから、例えば、私はこのコードを取得する場合: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN/" "http://www.w3.org/TR/html4/loose.dtd"><html> <head>

    1

    1答えて

    私は、JBoss 4.2に動作するspring mvcアプリケーションを持っています。このWebアプリケーションをJBoss wildfly 10(wildfly-10.0.0.Final version)に移行しようとしています。 私はこのエラー私のアプリのショーを展開してみてください。 "{\"WFLYCTL0080: Failed services\" => {\"jboss.deploym

    1

    1答えて

    私はジェリコのSourceFormatterを使ってHTMLの字下げを行っています。 私のHTMLフォーマッタに問題がある場合、今すぐそれをサーバコンソールに送ります。 エラーを捕捉してログシステムに出力するにはどうすればいいですか(実際はString/Objectとして取得します)。ここで は私が private String indent(String html) { SourceF

    5

    1答えて

    私はTagSoupとjTidyライブラリのドキュメント(可能であれば公式にドキュメント)を探しています。 このライブラリを使用して、html(html、xhtmlまたはhtml5)タグの間に異なる名前空間を持つxmlタグを含むhtml "tagsoup"ファイルを操作します。 私はHTMLCleaner、NekoHTML、Jerichoをテストしましたが、jTidyとTagSoupのドキュメントは

    2

    1答えて

    私は、Jerichoを使用して2つのコメントタグ間のすべてのテキストを解析できるようにしたいと考えています。例えば、 <!--start--> abc 123 <!--end--> が戻ってくる abc 123 は、そのすべてで可能ですか?

    0

    1答えて

    例。私は解析中にコンテンツ "こんにちは" を取得することができますどのようにHTML <html> <body> <p> Hello <b> world </b> </p> </body> </html> を考えてみましょうか? 私を助けてください。私はJavaでそれが必要です。私はjehricoのようなhtmlパーサーはほとんど認識していません。

    1

    1答えて

    パーサーを使用して、本文テキスト内の特定のH2(またはh3/h4/h5/h6)テキストの出現の位置番号を特定したいと考えています。位置番号は、この特定のh2(またはh3/h4/h5/h6)フレーズの前に発生した「単語」の数のカウントを意味します...フレーズがh2とh4の両方のテキスト(たとえば)これらのテキストの両方に対して正しい位置番号を取得する方法を確認するにはどうすればよいですか?