2012-03-05 4 views
1

HTMLページをMSワードに変換したい。私は、どんなAPIが役立つのか、同じことをする他のオプションがあるかどうかを知りたい。 ページ全体が.docに変換されます(例:htmlページに表がある場合は、同様の表をdocという単語に作成する必要があります)。 Apache POIには、HTMLページのようにWord文書の書式を設定するオプションはありません。 完全に書式設定された単語文書を私に与えることができるものが必要です。javaや任意のAPIを使用してHTMLページをMSワードに変換する

私が探しているものには、JSOUPdocx4jjasper reports、およびJOD Convertorがあります。

私はJSOUPを使用してHTMLページを解析しようとしましたが、私は の内容を私のJavaプログラムで取得しました。これらの内容を doc/docxファイルに渡す必要があります。 docx4jはフォーマットされたdocxファイルを入手するのに役立つのですか?

助けてください。 ありがとうございます。

+0

[Word文書をHTMLでプログラムでJavaに変換する]の複製可能性(0120-18753) –

+0

ファイルの名前を次のように変更します。 .doc。できます。 –

+0

@AndreiBodnarescu:リンクありがとう。それを通って行く。私はそれが助けて –

答えて

-3

私は同じことをするために方法ラウンドを見つけました。まず、JSOUPを使用して解析されたオブジェクトを取得し、それらをドキュメントテンプレートに渡す必要があります。私は簡単なテンプレートを作成し、文書を動的に作成できるオプションを探しています。 私は同じことに関してもう一度questionを尋ねました。

+1

この問題をここで解決する方法を説明したとは思わない – Edd

1

私はAshwini Ramanの提案に行きます。すべてのシナリオで動作しません。多くの画像やものを持つ複雑なHTML文書の場合、単語は良い仕事をしません。しかし、ほとんどの場合、それはうまくいくはずです。それ以外の場合は、先に複雑な作業があります。たとえば、jsoupライブラリを使用してHTMLドキュメントを解析し、次にdocx4jライブラリを使用してworkdドキュメントを作成する必要があります。両方へ のリンクはここにある:

http://www.docx4java.org/trac/docx4j

http://jsoup.org/

あなたもそれをやっている場合は、フォーマットがあやふやかもしれません。

あなたの元の質問に答えるために、あなたが期待している準備ができているライブラリはありません。少なくとも私は何にも出くわしません。

+0

拡張子を変更するだけでdocxをdocに変換する際の下位互換性の問題はありますか? –

+0

私はdocxにhtmlファイルの名前を変更しようとしましたが、それもうまくいくようです。もし誰かがOffice 97-2003を使っているのであれば、そのユーザーのために問題になるかもしれませんか?それを.docに変更すると誰もがそれを使うことができます。97-2003ユーザーがいない場合は問題ありません。 – sethu

+0

ファイルの名前を変更します。docxファイルを開こうとすると、次のエラーが表示されます。 1)コンテンツに問題があるため、ファイルを開くことができません。詳細:ファイルが壊れていて、開くことができません。 2)WordがmySampleで読み取り不可能なコンテンツを見つけました。docx –

関連する問題