nutchでは、Webページのコンテンツを取得して特別な方法で処理するプラグインを実装しています。私の主な問題は、私が処理することができるように平文にWebページを変換したいですnutchプラグインでtikaを使用
,,私はティカツールキットがとても
ことを行うことができますことを読んで、私はそれを書く、URLを解析するティカ使用し、このコードを見つけましたフィルタ法
public ParseResult filter(Content content, ParseResult parseResult, HTMLMetaTags metaTags, DocumentFragment doc)
{
byte[] raw = content.getContent();
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
String plainText = handler.toString();
LOG.info("Mime: " + metadata.get(Metadata.CONTENT_TYPE));
LOG.info("content: " + handler.toString());
}
下metadata.get(Metadata.CONTENT_TYPE)の結果は、text/htmlの
ですがhandler.toString()が空であります!
更新: はまた、私はパーサ方法
LOG.info ("Status : "+ new ParseStatus().toString());
後にこのラインを使用しようと、私はこの結果を得る: ステータス:バージョン1.1以来(0,0)
ありがとう、私はメーリングリストの質問をしましたが、誰も私に答えませんでした。役立つリソースやスナップショットがありますか? –