私は、HTMLページをダウンロードし、いくつかの情報を選択して別のファイルに書き込むプログラムに取り組んでいます。HTMLからのテキスト抽出Java
段落タグの間にある情報を抽出したいが、段落の1行しか取得できない。私のコードは以下の通りです。私が言って、ラインが</p>
タグを含むまでファイルに書き込みを維持するためのプログラムを言うだろう、別のwhileループを追加しようとしていた
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
。
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
しかし、これは機能しません。誰かが助けてくれますか?
SOのHTMLタグのエスケープに間違いがあります。 – Yishai
バッククォートでコードとして引用していますか? – pjp
HTMLパーサーは存在し、それらの多くがあります。 –