0
私はAsposeでやっている単語をhtmlに変換する必要があり、うまくいきます。問題は、テキストが単語に格納される方法によるものと思われるいくつかの冗長な要素を生成していることです。例えばC#を使用して重複したhtmlスパン要素を取り除く
私のワード文書に以下のテキストが表示されます:RELEASE
FOR
AUTHORIZATIONをHTMLに変換し、それがなると:
<span style="font-size:9pt">A</span>
<span style="font-size:9pt">UTHORIZATION FOR R</span>
<span style="font-size:9pt">ELEASE</span>
私はC#を使用していますし、道を希望冗長なスパン要素を削除します。私はAngleSharpかhtml-agility-packのいずれかがこれを行うことができるはずだと思っていますが、これが最善の方法であるとは思わないでしょうか?
あなたは*冗長要素*と呼んでいるかは不明です。上記の例では、スパン要素のいずれかが冗長であるようには見えません。作成したHTMLを取り除き、テキストを取りたい場合は、 '[これらのspan要素の親] .InnerText'を参照することができます。 wordからhtmlに変換されたすべてのテキストは、これらとまったく同じように見えるspanタグに置かれていますか? – Veverke
私が言ったのは、htmlが次のようになることです。リリースの承認 – ksprague