Apache POIを使用してMS WordをXMLファイルに変換できますか?Apache POIを使用してMS Wordを解析し、XMLに変換できますか?
もしそうなら、それを行うためのチュートリアルを教えてください。
Apache POIを使用してMS WordをXMLファイルに変換できますか?Apache POIを使用してMS Wordを解析し、XMLに変換できますか?
もしそうなら、それを行うためのチュートリアルを教えてください。
私は次の2つのオプションは、Apache POI
一つで駆動の両方を持っていると言うだろうApache Tikaを使用します。 Tikaはテキストとメタデータの抽出ツールキットであり、POIを適切に呼び出してWord文書からかなりリッチなテキストを抽出することができます。その結果、TikaはあなたのWord文書の内容にXHTMLスタイルのXMLを提供します。
もう1つの方法は、POIにかなり最近追加されたクラス(WordToHtmlConverter)を使用することです。これは、あなたのためのHTMLにあなたの単語の文書になり、一般的にTikaよりも構造と書式のわずかに多くを保持します。
あなたが出ようとしているXMLの種類によっては、これらのうちの1つがあなたにとって良い賭けになるはずです。私はいくつかのサンプルファイルに対して両方を試し、問題のドメインとニーズに最適なものがどれであるかを確認することをお勧めします。
HWPFサブプロジェクトの目的は、プロセスワードファイルです。 StAXに、JDOM、XStreamの...
Apacheはクイックガイドを提供しています:
http://poi.apache.org/hwpf/quick-guide.htmlあなたはususalな方法でXMLを構築する必要がデータをXMLに変換するためにその後
http://poi.apache.org/hwpf/index.html
、
と私はまたことを見出した:
http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/
あなたがdocxファイルのファイルを処理したい場合は、OpenXML4Jのサブプロジェクトで見たいと思うかもしれません:
WordToHtmlConverterは、このクラスが入っているJarファイルです。まだ開発段階にあり、Jarファイルとしてリリースされていないと思いますか? – user2434
Scratchpad jarファイルにあります。最新のベータ版、3.8 Beta 4を入手し、そこからメインのPOI jar + scratchpad jarを使いたいと思うでしょう。 – Gagravarr