apache tikaを使用してファイルを解析する方法 1.2?
ljceneで検索しているときに、本文、添付ファイル、およびすべてのメタデータを取得するにはどうすればよいですか?コンテンツの抽出方法。 PSTのファイルを使用してApacheのtika?
for (File file : docs.listFiles()) {
Metadata metadata = new Metadata();
ContentHandler handler = new BodyContentHandler();
ParseContext context = new ParseContext();
Parser parser = new AutoDetectParser();
InputStream stream = new FileInputStream(file);
try {
parser.parse(stream, handler, metadata, context);
}
catch (TikaException e) {
e.printStackTrace();
}
catch (SAXException e) {
e.printStackTrace();
}
雅BodyContentandle、メタデータおよびドキュメントオブジェクト – user2857190
(ファイルファイル:docs.listFiles()){ メタデータメタデータ=新しいメタデータ(); ContentHandler handler = new BodyContentHandler(); ParseContext context = new ParseContext(); パーサーパーサー=新しいAutoDetectParser(); InputStream stream =新しいFileInputStream(ファイル)。 \t \t \t試み{ \t \t \t \t parser.parse(ストリーム、ハンドラ、メタデータ、コンテキスト)。 \t \t \t} \t \t \tキャッチ(TikaException電子){ \t \t \t \t e.printStackTrace(); \t \t \t}キャッチ(SAXExceptionの電子){ \t \t \t \t e.printStackTrace(); \t \t \t} – user2857190