apache tikaを使用してヘッダーとフッターなしで(pdf、docx、doc、odt)のような文書を抽出する方法。Apache Tikaを使用したヘッダーとフッターの抽出をスキップする方法
0
A
答えて
0
私はあなたがプロ文法的にそれを行うことができますいくつかは
import org.apache.tika.exception.TikaException;
import org.apache.tika.io.TikaInputStream;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.html.BoilerpipeContentHandler;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
public class NewtikaXpath {
public static void main(String args[]) throws IOException, SAXException, TikaException {
AutoDetectParser parser = new AutoDetectParser();
ContentHandler textHandler = new BodyContentHandler();
Metadata xmetadata = new Metadata();
try (InputStream stream = TikaInputStream.get(new URL("your favourite url"))){
parser.parse(stream, new BoilerpipeContentHandler(textHandler), xmetadata);
System.out.println("text:\n" + textHandler.toString());
}
}
}
+0
ありがとうございました。このコードはhtmlファイルでうまく機能します。私はdoc、docx、odt、pdf @Lakshmanが必要です –
0
ウェル(PDFおよびHTML)を解析すると、ドキュメントのために働いていない、DOCX、XLSX、XLS形式され、すべてのファイル形式でこのコードをテストしました。ここでどのように、それはDOCX、PPTX、ODT PDFファイルを含むすべてティカサポート文書のために働いています
AutoDetectParser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
inputStream = new BufferedInputStream(new FileInputStream(inputFileName));
Metadata metadata = new Metadata();
OfficeParserConfig officeParserConfig = new OfficeParserConfig();
officeParserConfig.setIncludeHeadersAndFooters(false);
parseContext.set(OfficeParserConfig.class, officeParserConfig);
parser.parse(inputStream, contentHandler, metadata, parseContext);
System.out.println(contentHandler.toString());
関連する問題
- 1. Apache Metadataクラスを使用してApache Tikaを使用して「件名」フィールドを抽出する方法
- 2. コンテンツの抽出方法。 PSTのファイルを使用してApacheのtika?
- 3. TesseractOCRConfig Apache Tikaを使用してスキャンしたpdfを抽出できません
- 4. RDFとしてTikaを使用したメタデータの抽出
- 5. Apache Tikaを使用したHDF解析
- 6. Indexing PDF - Apache SolrとApache Tikaを使用したファセット検索
- 7. TIKAを使用してURLのコンテンツ(テキスト)を抽出する
- 8. tikaを使用しているApache camel
- 9. AndroidでApache Tikaを使用する方法
- 10. Apache Metadataクラスを使用してApache Tikaを使用して「From」、「To」、および「Subject」フィールドを抽出する方法は?
- 11. apache solrとtikaを使用したテキストファイルのインデックス作成
- 12. pptからコンテンツを抽出するtikaの使い方は?
- 13. Apache TikaとApache Lucene
- 14. TIKAを使用してテキストを抽出できません
- 15. TIKAを使用してURLからテキストを抽出
- 16. ヘッダーとフッター、itextsharpを使用してC#
- 17. Apache TikaとJson
- 18. Apache SparkでDStreamでフィーチャ抽出を使用する方法
- 19. Apache Camel - フッター/最終ラインをスキップ
- 20. Apache TikaとApache PDFBox 2.0
- 21. xsltを使用したヘッダーとフッターとページ番号
- 22. Apache Tika on .Net Coreの使い方は?
- 23. tikaを使用してpdfファイルからテキストコンテンツを抽出できません
- 24. Apache CXF: - cxfインターセプタを使用してペイロードデータを抽出する方法
- 25. PHPサイトで複数のヘッダーとフッターを使用する方法は?
- 26. Sqoopのヘッダーをスキップする方法は?
- 27. ユーレカフォームを使用してセクションのヘッダーとフッターを隠す
- 28. codeigniterを使用して基本レイアウト(ヘッダー、フッター、サイドバー)を作成する方法
- 29. Apache Tikaのどのバージョンが、次のTikaコードの例を作成するために使われましたか?
- 30. androidの線形レイアウトのヘッダーとフッターを設定する方法
[、最小完全、かつ検証例を作成する方法](HTTPをお読みください:// stackoverflow.com/help/mcve)。 –
look http://stackoverflow.com/questions/16862346/ignoring-header-footer-text-when-using-tikaおよびhttps://coderanch.com/t/679868/Apache-Tika-Skipping-Header-footer。 –
XHTMLとして取り込み、ヘッダーとフッターのdivを取り除き、必要に応じてプレーンテキストにダウンミックスしますか? – Gagravarr