0
を取得します。私はページの内容をそのまま(行、改行、および段落とともに)取得する方法を探しています。nutchのフォームに書かれているように、Nutchの
ページのすべてのフォーマットが削除されるため、次のコードは役に立ちません。
Parse parse = parseResult.get(content.getUrl());
parse.getText()
でも
BufferedReader br = new BufferedReader(new InputStreamReader(new
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null)
LOG.info("After br: " +br.readLine());
ことがなく、HTMLタグでフォーマットされたコンテンツを返すため、ソリューションではありません。
私は実際には、必要なコンテンツを抽出する方法に送信できるように、元の形式にしたいと考えています。
ありがとうございました