html-to-text

    0

    1答えて

    プレースホルダ付きのドキュメントテンプレート(.dotxファイル)があります。私はそのテンプレートを読んで、プレースホルダをデータベースの列から来る実際のテキストに置き換える必要があります。私はdocx4jのWordprocessingMLPackageを使用してこれを行うことができますが、問題はいくつかのデータベース列にHTMLコードがあることです。これは、リッチテキストエディタフィールドからの

    0

    1答えて

    WRT this solutionを維持しながら、プレーンテキストにHTMLに変換する方法、嘆願は、どのように我々はタブおよびその他の有効プレーンテキストレイアウトを保持にそれを適応させることができ 参考ソリューション: public static string StripHTML(string HTMLText, bool decode = true) { Regex

    1

    2答えて

    Python 2.7.x標準ライブラリのモジュールのみを使用して、HTMLをテキストに変換する最良の方法を探しています。 (つまり、no BeautifulSoupなど) HTMLからテキストへの変換では、私はlynx -dumpという道徳上の同等物を意味します。実際、HTMLタグをインテリジェントに取り除き、すべてのHTMLエンティティをASCII(またはUTF8でエンコードされたユニコード)に

    3

    2答えて

    ウェブサイトからテキストを取得するために、少しアルゴを作成しています。答えを見つけてください(完了したらスクリプトを投稿します)。 これを行うには、すべてのHTMLコードを平易な読みやすい英語のテキストに変換する必要があります。 私は、すべてのHTMLタグを手動で削除したが、いくつかのCSSエントリは取り除くのは難しいです。 htmlをプレーンな英語のテキストに変換する方法に関する簡単なアイデアで