Apache POIを使用してMS Wordを解析し、XMLに変換できますか？

Apache POIを使用してMS WordをXMLファイルに変換できますか？Apache POIを使用してMS Wordを解析し、XMLに変換できますか？

もしそうなら、それを行うためのチュートリアルを教えてください。

2011-11-22 user2434

私は次の2つのオプションは、Apache POI

一つで駆動の両方を持っていると言うだろうApache Tikaを使用します。 Tikaはテキストとメタデータの抽出ツールキットであり、POIを適切に呼び出してWord文書からかなりリッチなテキストを抽出することができます。その結果、TikaはあなたのWord文書の内容にXHTMLスタイルのXMLを提供します。

もう1つの方法は、POIにかなり最近追加されたクラス（WordToHtmlConverter）を使用することです。これは、あなたのためのHTMLにあなたの単語の文書になり、一般的にTikaよりも構造と書式のわずかに多くを保持します。

あなたが出ようとしているXMLの種類によっては、これらのうちの1つがあなたにとって良い賭けになるはずです。私はいくつかのサンプルファイルに対して両方を試し、問題のドメインとニーズに最適なものがどれであるかを確認することをお勧めします。

出典

2011-11-22 16:48:22 Gagravarr

WordToHtmlConverterは、このクラスが入っているJarファイルです。まだ開発段階にあり、Jarファイルとしてリリースされていないと思いますか？ – user2434

Scratchpad jarファイルにあります。最新のベータ版、3.8 Beta 4を入手し、そこからメインのPOI jar + scratchpad jarを使いたいと思うでしょう。 – Gagravarr

HWPFサブプロジェクトの目的は、プロセスワードファイルです。 StAXに、JDOM、XStreamの...

Apacheはクイックガイドを提供しています：

http://poi.apache.org/hwpf/quick-guide.htmlあなたはususalな方法でXMLを構築する必要がデータをXMLに変換するためにその後

http://poi.apache.org/hwpf/index.html

、

と私はまたことを見出した：

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

あなたがdocxファイルのファイルを処理したい場合は、OpenXML4Jのサブプロジェクトで見たいと思うかもしれません：

http://poi.apache.org/oxml4j/index.html

出典

2011-11-22 09:58:06

Apache POIを使用してMS Wordを解析し、XMLに変換できますか？

答えて

関連する問題