html-to-text

0熱

1答えて

javaでdocx4jを使用してテキストをHTMLコードのdotxファイルに置き換えます。

プレースホルダ付きのドキュメントテンプレート（.dotxファイル）があります。私はそのテンプレートを読んで、プレースホルダをデータベースの列から来る実際のテキストに置き換える必要があります。私はdocx4jのWordprocessingMLPackageを使用してこれを行うことができますが、問題はいくつかのデータベース列にHTMLコードがあることです。これは、リッチテキストエディタフィールドからの

0熱

1答えて

は、タブと他の有効なプレーンテキストのレイアウト

WRT this solutionを維持しながら、プレーンテキストにHTMLに変換する方法、嘆願は、どのように我々はタブおよびその他の有効プレーンテキストレイアウトを保持にそれを適応させることができ参考ソリューション： public static string StripHTML(string HTMLText, bool decode = true) { Regex

1熱

2答えて

Python標準ライブラリのみを使用したHTMLからテキストへの変換

Python 2.7.x標準ライブラリのモジュールのみを使用して、HTMLをテキストに変換する最良の方法を探しています。（つまり、no BeautifulSoupなど） HTMLからテキストへの変換では、私はlynx -dumpという道徳上の同等物を意味します。実際、HTMLタグをインテリジェントに取り除き、すべてのHTMLエンティティをASCII（またはUTF8でエンコードされたユニコード）に

3熱

2答えて

HTMLをテキストに変換するDOT NETコード

ウェブサイトからテキストを取得するために、少しアルゴを作成しています。答えを見つけてください（完了したらスクリプトを投稿します）。これを行うには、すべてのHTMLコードを平易な読みやすい英語のテキストに変換する必要があります。私は、すべてのHTMLタグを手動で削除したが、いくつかのCSSエントリは取り除くのは難しいです。 htmlをプレーンな英語のテキストに変換する方法に関する簡単なアイデアで