私は(あなたの心にタグやコンテンツを挿入、概要)例えば、ウェブサイトの内容を含む文字列を、持っているウェブサイトのコンテンツを余分なものなしに取得するにはどうすればよいですか?私は余分なしでコンテンツを取得するにはどうすればよい
$string = '<html>
<head>
<meta content="text/html; charset=ISO-8859-1" http-equiv="content-type">
<title>Some title
</title>
</head>
<body>Navigation
<br><div>CSS</div>
<br><div>JavaScript</div>
<br>Advertising
<br><div>Content</div>
<br>Navigation
<br>Advertising
<br>Inprint
<br>
</body>
</html>'
?コンテンツでは、私は「コンテンツ」という言葉を意味するのではなく、ウェブサイトが実際に持っている内容を意味します。
たとえば、フォーラムでは、ナビゲーション、タグ、広告なしでフォーラムのエントリーが必要です。
私はstring s = Regex.Replace(string, "<.*?>", String.Empty);
を試しましたが、タグを取り除いていますが、コンテンツを取得していません。
ウェブサイト上に反復され、悪用される可能性のあるパターンがいくつかありますか?
「余分な」とは何を意味するのか分かりません。あなたの期待される成果を投稿できますか? – smead
HTMLを解析するには、Html Agility Packを使用します。 –
@smeadが更新されました。 –