2016-09-03 16 views
1

私はjsoupを使ってhtmlファイルを解析しています。私は正常にHTMLからすべてのタグを削除したことですが、私はまた、ファイルの先頭にヘッダーを削除したいです。例えば :jsoupを使用してhtmlファイルの先頭にヘッダーを削除する方法は?

WARC/1.0

WARC型:応答

WARC-日:2012-02-10T20:37:13Z

HTTP/1.1 200 OK

サーバー:Apache

ここにmy cod e:

static String readFile(String path, Charset encoding) throws IOException 
{ 
    byte[] encoded = Files.readAllBytes(Paths.get(path)); 
    return new String(encoded, encoding); 
} 
String file=indexer.readFile("C:\\Users\\umair\\Downloads\\Compressed\\Assignment 1 Data IR\\Assignment 1 Data IR\\corpus\\corpus\\corpus\\clueweb12-0000tw-14-17002.txt", StandardCharsets.UTF_8); 
System.out.println(Jsoup.parse(file).text()); 

どうすればこれらのヘッダーを削除できますか?

+1

これはHTMLファイルではなく、HTTP応答です。 HTTPパーサーを使用する必要があります。 – Siguza

+0

私はそれのためのコードの行を私に提供してもらえますか? –

+0

私はJSoupで一度も働いたことがなく、あなたの 's'変数がどこから来ているのか分かりません。しかし、応答本体のみを使用する必要がある場合は、生の応答で何とか動作しています。 – Siguza

答えて

0

あなたは

doc.body() 

は任意のヘッダーなしでHTML文書の本文のみを取得するために使用することができます。これはもちろん、適切なHTML文書を処理していることを前提としています。

+0

私のコードでこの行のコードをどこで使うべきですか教えてください。実際に私はHTML解析では新しいです、私は自分のコードを変更する方法を知らない。私のコードはすでにタグなしで私にテキストを与えています。 –

+0

他に何も必要ない場合は、 'Jsoup.parse(file).body()。text()'を実行できます。 –

+0

は機能しません。それは私に同じ結果を与える。 –

関連する問題