nutchのフォームに書かれているように、Nutchの

を取得します。私はページの内容をそのまま（行、改行、および段落とともに）取得する方法を探しています。nutchのフォームに書かれているように、Nutchの

ページのすべてのフォーマットが削除されるため、次のコードは役に立ちません。

Parse parse = parseResult.get(content.getUrl());  
parse.getText()

でも

BufferedReader br = new BufferedReader(new InputStreamReader(new 
ByteArrayInputStream(content.getContent()))); 
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine());

ことがなく、HTMLタグでフォーマットされたコンテンツを返すため、ソリューションではありません。

私は実際には、必要なコンテンツを抽出する方法に送信できるように、元の形式にしたいと考えています。

ありがとうございました

出典

2012-01-30 Haya aziz

これを行う方法はありません。

お客様のニーズに応じてsrc\java\org\apache\nutch\segment\ContentAsTextInputFormat.javaを調査して変更してください。

出典

2012-04-03 15:32:17

nutchのフォームに書かれているように、Nutchの

答えて

関連する問題