2
私は1つのhtmlページを解析し、htmlタグのクラス名またはIDを使用してテキストを取り出す必要があります。htmlタグのクラス名またはIDを使用して1つのhtmlページを解析してテキストを取り出す方法は?
Apache tikaまたはjsoup? htmlページの特定のタグ、ID、またはクラス名を使用してテキストを操作して取り出すことができるように、より多くのコントロールを持つツール名を教えてください。
私は1つのhtmlページを解析し、htmlタグのクラス名またはIDを使用してテキストを取り出す必要があります。htmlタグのクラス名またはIDを使用して1つのhtmlページを解析してテキストを取り出す方法は?
Apache tikaまたはjsoup? htmlページの特定のタグ、ID、またはクラス名を使用してテキストを操作して取り出すことができるように、より多くのコントロールを持つツール名を教えてください。
私はあなたにJsoup
を使用して、3つのユースケースの一例を作った、コード内のコメントを参照してください。
- クラス名でのget div要素
- は、タグ名
により、すべてのdiv要素を取得- IDによって要素を取得
String html = "...";
Document doc = Jsoup.parse(html);
// get div elements by class name
Elements divs = doc.select("div.myclass");
for (Element div : divs) {
// print containing text
System.out.println(div.text());
}
// get all div elements by tag name
divs = doc.getElementsByTag("div");
for (Element div : divs) {
// print containing text
System.out.println(div.text());
}
// get element by id
String id = "...";
Element element = doc.getElementById(id);
System.out.println(element.text());
コードをお寄せいただきありがとうございます。この回答を確認してマークします.. @ flavio-donze – rrsk
私は 'tika'については分かりませんが、' Jsoup'はあなたが期待していることを間違いなく実行します。 – soorapadman