jericho-html-parser

1熱

1答えて

私はアプリケーションからジェリコパーサーを使用して、軽量版のWebページを取得し、そこからいくつかの部分を抽出します。ですから、例えば、私はこのコードを取得する場合： <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN/" "http://www.w3.org/TR/html4/loose.dtd"><html> <head>

1熱

1答えて

JBoss wildfly 10 NoClassDefFoundError at JBoss 4.2からの移行

私は、JBoss 4.2に動作するspring mvcアプリケーションを持っています。このWebアプリケーションをJBoss wildfly 10（wildfly-10.0.0.Final version）に移行しようとしています。私はこのエラー私のアプリのショーを展開してみてください。 "{\"WFLYCTL0080: Failed services\" => {\"jboss.deploym

1熱

1答えて

Jericho SourceFormatterからエラー文字列を取得

私はジェリコのSourceFormatterを使ってHTMLの字下げを行っています。私のHTMLフォーマッタに問題がある場合、今すぐそれをサーバコンソールに送ります。エラーを捕捉してログシステムに出力するにはどうすればいいですか（実際はString/Objectとして取得します）。ここでは私が private String indent(String html) { SourceF

5熱

1答えて

jTidyとTagSoupのドキュメント

私はTagSoupとjTidyライブラリのドキュメント（可能であれば公式にドキュメント）を探しています。このライブラリを使用して、html（html、xhtmlまたはhtml5）タグの間に異なる名前空間を持つxmlタグを含むhtml "tagsoup"ファイルを操作します。私はHTMLCleaner、NekoHTML、Jerichoをテストしましたが、jTidyとTagSoupのドキュメントは

2熱

1答えて

Jerichoで2つのコメントを解析するにはどうすればよいですか？

私は、Jerichoを使用して2つのコメントタグ間のすべてのテキストを解析できるようにしたいと考えています。例えば、  abc 123  が戻ってくる abc 123 は、そのすべてで可能ですか？

0熱

1答えて

java htmlパーサーのネストされたタグ間の内容を取得するには？

例。私は解析中にコンテンツ "こんにちは" を取得することができますどのようにHTML <html> <body> <p> Hello <b> world </b> </p> </body> </html> を考えてみましょうか？私を助けてください。私はJavaでそれが必要です。私はjehricoのようなhtmlパーサーはほとんど認識していません。

1熱

1答えて

Jericho HTMLパーサーに関する質問

パーサーを使用して、本文テキスト内の特定のH2（またはh3/h4/h5/h6）テキストの出現の位置番号を特定したいと考えています。位置番号は、この特定のh2（またはh3/h4/h5/h6）フレーズの前に発生した「単語」の数のカウントを意味します...フレーズがh2とh4の両方のテキスト（たとえば）これらのテキストの両方に対して正しい位置番号を取得する方法を確認するにはどうすればよいですか？