2011-06-27 6 views
1

私はjsoup-1.5.2 parse htmlタグ文字列を使用して、html文字列からプレーンテキストを抽出し、テキストの長さを指定し、元のhtmlタグを保持します。Jsoupを使用してhtmlから指定された長さのプレーンテキストを抽出するには?

examply:

HTMLコード:

<p><span>Mike <u>stopp<b>ed</b></u> his work</span></p> 

Iの結果が欲しい:

= 10

テキストの長さを指定するテキストの長さ= 4

result:<p><span>Mike</span></p> 

を指定します12

result:<p><span>Mike <u>stopp<b>ed</b></u></span></p> 

指定したテキストの長さを指定し

result:<p><span>Mike <u>stopp</u></span></p> 

=テキストの長さ= 16

result:<p><span>Mike <u>stopp<b>ed</b></u> his</span></p> 

など

が、私はそれがjsoup使用を終了することはできますか?

+0

あなた自身で解決策を試しましたか?これは、Jsoupや他の図書館で既製品が見つからないようにするための非常にカスタムの要件です(間違いかもしれませんが)。 DOMメソッドを解析する際にDOMドキュメントを取得するように見えるので、ここではDOMメソッドが便利です。乾杯、ウィム – Wivani

答えて

0

残念なことにElementクラスを使用するのは簡単ではありません。その理由は、Elementクラス内の 'text()'メソッドは、 "この要素とそのすべての子要素の結合テキストを取得します。あなたがただ一つの要素のテキストを得ることができないので、これは本当に刺激的です。 ElementsクラスのElements.select(String).text()メソッドを使用し、おそらくワイルドカードを使用する必要があります(可能な場合)。このメソッドは、一致するすべてのノードの '結合された'テキストを返します。これは単一の文字列として返されるので、Stringの 'length()'メソッドを呼び出すことができます。

関連する問題