私はjsoupを使ってhtmlファイルを解析しています。私は正常にHTMLからすべてのタグを削除したことですが、私はまた、ファイルの先頭にヘッダーを削除したいです。例えば :jsoupを使用してhtmlファイルの先頭にヘッダーを削除する方法は?
WARC/1.0
WARC型:応答
WARC-日:2012-02-10T20:37:13Z
HTTP/1.1 200 OK
サーバー:Apache
ここにmy cod e:
static String readFile(String path, Charset encoding) throws IOException
{
byte[] encoded = Files.readAllBytes(Paths.get(path));
return new String(encoded, encoding);
}
String file=indexer.readFile("C:\\Users\\umair\\Downloads\\Compressed\\Assignment 1 Data IR\\Assignment 1 Data IR\\corpus\\corpus\\corpus\\clueweb12-0000tw-14-17002.txt", StandardCharsets.UTF_8);
System.out.println(Jsoup.parse(file).text());
どうすればこれらのヘッダーを削除できますか?
これはHTMLファイルではなく、HTTP応答です。 HTTPパーサーを使用する必要があります。 – Siguza
私はそれのためのコードの行を私に提供してもらえますか? –
私はJSoupで一度も働いたことがなく、あなたの 's'変数がどこから来ているのか分かりません。しかし、応答本体のみを使用する必要がある場合は、生の応答で何とか動作しています。 – Siguza