2012-01-30 4 views
0

を取得します。私はページの内容をそのまま(行、改行、および段落とともに)取得する方法を探しています。nutchのフォームに書かれているように、Nutchの

ページのすべてのフォーマットが削除されるため、次のコードは役に立ちません。

Parse parse = parseResult.get(content.getUrl());  
parse.getText() 

でも

BufferedReader br = new BufferedReader(new InputStreamReader(new 
ByteArrayInputStream(content.getContent()))); 
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine()); 

ことがなく、HTMLタグでフォーマットされたコンテンツを返すため、ソリューションではありません。

私は実際には、必要なコンテンツを抽出する方法に送信できるように、元の形式にしたいと考えています。

ありがとうございました

答えて

0

これを行う方法はありません。

お客様のニーズに応じてsrc\java\org\apache\nutch\segment\ContentAsTextInputFormat.javaを調査して変更してください。