htmlとbodyタグが大文字、小文字、または存在しない可能性があるので、 のhtmlドキュメントから本文を抽出するにはどうすればよいでしょうか?Regex Extract html Body
答えて
正規表現を使用しないでください。Html Agility Packなどを使用してください。
これは はDOMを書き込み/読み取りを構築し、 平野XPATHやXSLTをサポートしている機敏なHTMLパーサである(あなたが実際に XPATHもそれを使用する XSLTを理解する必要はありませんが、心配しないでください。 ..)。 "Webから" HTMLファイルを解析するための.NETコードライブラリです。 パーサーは、「実際の ワールド」の不正なHTMLに対して非常に寛容です。オブジェクト モデルは、 System.Xmlを提案するものに非常に似ていますが、HTMLドキュメント(または ストリーム)の場合は非常に似ています。
次に、body
をXPATHで抽出することができます。
私は同意します。私はこれを使用した、それは速く、きちんとしてきれいだと言う必要があります。 –
これは非常に近いあなたを取得する必要があります:
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
詳細ソリューションを提供してください。 – ShaileshDev
どのようにこのようなものでしょうか?
<body></body>
タグ(RegexOptions.IgnoreCase
のために大文字小文字を区別しない)のすべてをtheBody
という名前のグループに取り込みます。
RegexOptions.Singleline
では、複数のHTMLを1つの文字列として扱うことができます。
HTMLに<body></body>
タグが含まれていない場合、一致のSuccess
プロパティはfalseになります。
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. regex extract tableau
- 2. Notepad ++ Regex Extract情報
- 3. Powershell Regex extract concat text
- 4. HTML CSS body autosizing
- 5. Match&Extract
- 6. Regex Stripping HTML Tags
- 7. 高さ100%のhtml、body、divs
- 8. body:=> PlayフレームワークのHTML?
- 9. "html"と "body"のCSSプロパティー
- 10. extract xpath
- 11. javascript/jquery extract入力タグを含むHTMLテーブルのHTMLテキスト
- 12. DOCTYPE、HTML、HEAD、BODYタグのないBODYのコンテンツを取得する
- 13. javascript html regex
- 14. Vim Regex for html
- 15. html textarea regex match
- 16. html bodyタグ内の角2のディレクティブ
- 17. json/ld article内のHTMLタグBody値?
- 18. <body> HTMLとJavaScriptの "onload"?
- 19. html bodyタグの制限がクロムと 'I.E'
- 20. body/window/html/documentのjQuery .scroll()イベント
- 21. htmlタグとbodyタグの違い
- 22. PHP Tar Extract w/Variable
- 23. perl extract and parse
- 24. rsa archer data extract
- 25. group by extract sql
- 26. Python BeautifulSoup StyleTag Extract
- 27. DotNetZip BadReadException on .Extract
- 28. Laravel 5.1:ビューを使わずにHTML BodyとText Bodyを渡すには?
- 29. htmlマークアップ:複数/繰り返しhtml、head、bodyタグなど - 結果
- 30. C#(.NET)、Html parge with regex
重複したhttp://stackoverflow.com/questions/356340/regular-expression-to-extract-html-body-content? – M4N