jsoupを使用してhtmlファイルの先頭にヘッダーを削除する方法は？

私はjsoupを使ってhtmlファイルを解析しています。私は正常にHTMLからすべてのタグを削除したことですが、私はまた、ファイルの先頭にヘッダーを削除したいです。例えば：jsoupを使用してhtmlファイルの先頭にヘッダーを削除する方法は？

WARC/1.0

WARC型：応答

WARC-日：2012-02-10T20：37：13Z

HTTP/1.1 200 OK

サーバー：Apache

ここにmy cod e：

static String readFile(String path, Charset encoding) throws IOException 
{ 
    byte[] encoded = Files.readAllBytes(Paths.get(path)); 
    return new String(encoded, encoding); 
} 
String file=indexer.readFile("C:\\Users\\umair\\Downloads\\Compressed\\Assignment 1 Data IR\\Assignment 1 Data IR\\corpus\\corpus\\corpus\\clueweb12-0000tw-14-17002.txt", StandardCharsets.UTF_8); 
System.out.println(Jsoup.parse(file).text());

どうすればこれらのヘッダーを削除できますか？

出典

2016-09-03 umair ayub

これはHTMLファイルではなく、HTTP応答です。 HTTPパーサーを使用する必要があります。 – Siguza

私はそれのためのコードの行を私に提供してもらえますか？ –

私はJSoupで一度も働いたことがなく、あなたの 's'変数がどこから来ているのか分かりません。しかし、応答本体のみを使用する必要がある場合は、生の応答で何とか動作しています。 – Siguza

あなたは

doc.body()

は任意のヘッダーなしでHTML文書の本文のみを取得するために使用することができます。これはもちろん、適切なHTML文書を処理していることを前提としています。

出典

2016-09-03 21:17:46

私のコードでこの行のコードをどこで使うべきですか教えてください。実際に私はHTML解析では新しいです、私は自分のコードを変更する方法を知らない。私のコードはすでにタグなしで私にテキストを与えています。 –

他に何も必要ない場合は、 'Jsoup.parse（file）.body（）。text（）'を実行できます。 –

は機能しません。それは私に同じ結果を与える。 –

jsoupを使用してhtmlファイルの先頭にヘッダーを削除する方法は？

答えて

関連する問題