2017-06-30 3 views
0
WebClient web = new WebClient(); 
String website = web.DownloadString("https://www.google.com"); 

String search = @""; 
MatchCollection matches = Regex.Matches(Website,Search); 

foreach (Match m in matches){} 

これは私が他の学習に興味がない場合、私は、ウェブサイト (これが最善の方法である場合、私は知らないをこすりために使用するものです方法)(ウェブ)スクレイピングコンテンツは

私の問題は​​正規表現を使用しています。たとえば、次の単語を見つけることができます。title=。 しかし、私は特定のdivにあるときにのみそれを抽出したいと私はこのように行うことができますか分からない。

おかげ

+1

HTMLパーサーであるHtmlAgilityPackを使用します。 –

+1

https://blog.codinghorror.com/parsing-html-the-cthulhuway/ – Jocke

+1

あなたが探している部門のユニークな特性は何ですか? – mrfelis

答えて

0

はい、Wiktor第HTMLと静的なページのためHtmlAgilityPackを使用して、またはいくつかのブラウザの自動使用を試して述べたように - あなたがサイトをtargte JavaコードのEAの多くを肝炎場合、場合 - 、またはヘッドレスPhantomJSとセレンChromeをコンテンツは動的に生成されます。