Word文書をHTMLに変換しようとしています。私はApache POIを使用していますが、MS Word独自のhtml保存メソッドと同じように混乱を招きます。私が欲しいのはhttps://html-cleaner.com/のようなものです。
たとえば、テーブルを変換しようとすると、幅プロパティやその他のものは必要ありません。ほんの少し素敵な<td>
と<tr>
タグは多分<b>
とタグしています。Apache POIスタイルや不要なタグなしでHtmlを整理するWord
誰でもこれを達成する方法を知っていますか?ところで、私はApache POIを使用することを余儀なくされていません.Html変換をクリーンアップするWordを実現する他のJava APIを知っていれば、私はあなたのアドバイスを公開しています。
'文書内の各IBodyElementについて。 getBodyElements() ':BodyElementType.PARAGRAPHの場合、段落のテキスト「
」を出力します+ "
"そうでなければ 'BodyElementType.TABLE'であれば"" +段落のテキスト+ "
"を出力します。終了セルで ""を発します。次のセル。終了行で "Apache Tikaで試しましたか?それはあなたにシンプルでクリーンなHTMLを与えるはずですが、Apache POIによって内部的に動かされますが、カスタムレンダリングでは – Gagravarr
@AxelRichterは私の最悪の場合の計画です。私はもっと簡単な方法を探しています –