ウェブサイトからテキストを取得するために、少しアルゴを作成しています。答えを見つけてください(完了したらスクリプトを投稿します)。HTMLをテキストに変換するDOT NETコード
これを行うには、すべてのHTMLコードを平易な読みやすい英語のテキストに変換する必要があります。
私は、すべてのHTMLタグを手動で削除したが、いくつかのCSSエントリは取り除くのは難しいです。 htmlをプレーンな英語のテキストに変換する方法に関する簡単なアイデアですか?
ありがとうございました。
ウェブサイトからテキストを取得するために、少しアルゴを作成しています。答えを見つけてください(完了したらスクリプトを投稿します)。HTMLをテキストに変換するDOT NETコード
これを行うには、すべてのHTMLコードを平易な読みやすい英語のテキストに変換する必要があります。
私は、すべてのHTMLタグを手動で削除したが、いくつかのCSSエントリは取り除くのは難しいです。 htmlをプレーンな英語のテキストに変換する方法に関する簡単なアイデアですか?
ありがとうございました。
some oneはすでにあなたのためall the workを作りました。
DOMを解析していないので、InnerTextを使う方が良いでしょうか? – okutane
はい、有効なHTMLなら...有効なXMLを取得できません。たとえば、XMLとしてDOMを解析すると、「
」ではなく「
」というエラーがスローされます。あなたが100%確信しているなら、あなたは正しいHTMLを持っているでしょう。 –
balexandre
私は正規表現のパフォーマンスの低下を回避似たような開発:strip_tags equivalent for ASP.NET(あまりにもデスクトップ.NETアセンブリ上で実行することができます)
+1は良い主題のために:) –
ことを行うために、私はプレーン読める英語のテキストに体及び/本体内のすべてのHTMLコードを変換する必要があります。 (本文が質問から削除されました) – Arjun
タグを削除すると、CSSエントリが残っているはずです。たぶんあなたは取り除くのが難しいいくつかのサンプルを投稿することができますか? – Francis
私は、前のコメントにCSSがないことを "ない"ことを意味します... – Francis