WordToHtmlConverter
というコンバーターがありますが、プロセスメソッドが公開されていません。 docファイルを渡してHTMLファイル(またはOutputStream
)を取得するにはどうすればよいですか?Apache POIでWordをHTMLに変換する
9
A
答えて
18
このコードは現在機能しています。
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("D:\\temp\\seo\\1.doc"));
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
DocumentBuilderFactory.newInstance().newDocumentBuilder()
.newDocument());
wordToHtmlConverter.processDocument(wordDocument);
Document htmlDocument = wordToHtmlConverter.getDocument();
ByteArrayOutputStream out = new ByteArrayOutputStream();
DOMSource domSource = new DOMSource(htmlDocument);
StreamResult streamResult = new StreamResult(out);
TransformerFactory tf = TransformerFactory.newInstance();
Transformer serializer = tf.newTransformer();
serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
serializer.setOutputProperty(OutputKeys.INDENT, "yes");
serializer.setOutputProperty(OutputKeys.METHOD, "html");
serializer.transform(domSource, streamResult);
out.close();
String result = new String(out.toByteArray());
System.out.println(result);
+0
私はそれのための完全なコードを得ることができます..? –
+0
ありがとうございました。あなたの提案は私を助けました。私は提供されたサンプルを試しましたが、図の中の画像、表、内容をスキップします(ボックスのように)。あまりにもそれを抽出する方法はありますか?別々に画像を抽出する例はほとんどありませんでした。すべてを一緒にする方法はありますか?それ以外の場合は、元のファイルの位置に正確にそれらのイメージ、テーブルを置くことができます。 "ドキュメントファイルをHTMLコンテンツとしてレンダリング"(画像、表、図などをスキップしない)という要件を満たす手段 –
関連する問題
- 1. Apache POI Wordチュートリアル。
- 2. Apache-Poi wordとintellij
- 3. .NETでHTMLをWordに変換する
- 4. フッターを追加Word apache poi java
- 5. Apache POIスタイルや不要なタグなしでHtmlを整理するWord
- 6. Apache POI Word XWPFテーブルの方向とアラインメント
- 7. Java Apache POI - ファイルシステムに新しいバージョンのWordを保存する
- 8. Apache word poi(XWPF)でテーブルの方向を変更する方法は?
- 9. Apache POIを使用してMS Wordを解析し、XMLに変換できますか?
- 10. 文字列を日付に変換するapache POI
- 11. Apache POIを使用してbyteArrayをXSSFWorkbookに変換します。
- 12. Apache POI Wordのテキストに複数の等式をインラインで追加するには?
- 13. Apache POIでWord文書のセクションを読む
- 14. Apacheリバースプロキシからhtmlに変換する
- 15. Apache POI - 読書ファイルを変更する
- 16. Apache POIを使用したWord Tableの単一スペーシング
- 17. イメージを含むapache poiを使用して.docxをHTMLに変換する方法
- 18. htmlタグ付きテキストをformated wordファイルに変換する
- 19. MS Word文書をPHPのhtmlに変換する
- 20. Apache POI
- 21. Apache poiを使用してWord文書にデータを書き込みますか?
- 22. Apache POIでPowerpointのtabl値を変更するには?
- 23. JavaでApache POIのXWPFTableCellマージンを変更するには?
- 24. Apache POIセルライブラリをインポートする
- 25. Apache POIをインポートするJava
- 26. エラーはApache POIで
- 27. 読んだときのメモリの問題Apache poiでファイルをExcelに変換
- 28. OpenTbsはhtmlタグをMS Wordタグに変換します
- 29. Apache FOPを使用してWord 2007文書をPDFに変換する方法
- 30. Apache POIを使用してMicrosoft Wordのフッターを変更する方法はありますか?
これはあなたのご質問ですか? http://stackoverflow.com/questions/227236/convert-word-doc-to-html-programmatically-in-java – enrique2334
Apache POIには、org.apache.poiパッケージの新しいクラスがあります.hwpf.converterはそれを処理する...しかし、それらを使用する方法に関するチュートリアルを見つけることができませんでした。 – Ron