2011-11-22 17 views

答えて

4

私は次の2つのオプションは、Apache POI

一つで駆動の両方を持っていると言うだろうApache Tikaを使用します。 Tikaはテキストとメタデータの抽出ツールキットであり、POIを適切に呼び出してWord文書からかなりリッチなテキストを抽出することができます。その結果、TikaはあなたのWord文書の内容にXHTMLスタイルのXMLを提供します。

もう1つの方法は、POIにかなり最近追加されたクラス(WordToHtmlConverter)を使用することです。これは、あなたのためのHTMLにあなたの単語の文書になり、一般的にTikaよりも構造と書式のわずかに多くを保持します。

あなたが出ようとしているXMLの種類によっては、これらのうちの1つがあなたにとって良い賭けになるはずです。私はいくつかのサンプルファイルに対して両方を試し、問題のドメインとニーズに最適なものがどれであるかを確認することをお勧めします。

+0

WordToHtmlConverterは、このクラスが入っているJarファイルです。まだ開発段階にあり、Jarファイルとしてリリースされていないと思いますか? – user2434

+0

Scratchpad jarファイルにあります。最新のベータ版、3.8 Beta 4を入手し、そこからメインのPOI jar + scratchpad jarを使いたいと思うでしょう。 – Gagravarr

5

HWPFサブプロジェクトの目的は、プロセスワードファイルです。 StAXに、JDOM、XStreamの...

Apacheはクイックガイドを提供しています:

http://poi.apache.org/hwpf/quick-guide.htmlあなたはususalな方法でXMLを構築する必要がデータをXMLに変換するためにその後

http://poi.apache.org/hwpf/index.html

と私はまたことを見出した:

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

あなたがdocxファイルのファイルを処理したい場合は、OpenXML4Jのサブプロジェクトで見たいと思うかもしれません:

http://poi.apache.org/oxml4j/index.html

関連する問題