htmlソースからページに表示されているテキストを抽出するにはどうすればよいですか？私はHtmlAgilityPack、次のコードを試してみましたが、それはHTMLリストからテキストをキャプチャしていません

：あなたは木や連結上を歩く必要があるためhtmlソースからページに表示されているテキストを抽出するにはどうすればよいですか？私はHtmlAgilityPack、次のコードを試してみましたが、それはHTMLリストからテキストをキャプチャしていません

<as html> 
<p>This line is picked up <b>correctly</b>. List items hasn't...</p> 
<p><ul> 
<li>List Item 1</li> 
<li>List Item 2</li> 
<li>List Item 3</li> 
<li>List Item 4</li> 
</ul></p> 
</as html>

出典

2012-02-05 Luke G

これはおそらくJavascriptのためです。 – SLaks

分析している 'HTML'を表示してください。 – RedFilter

@RedFilter HTMLを更新しました。 –

のInnerTextは、私の作品：

string StripHTML(string htmlStr) 
{ 
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); 
    doc.LoadHtml(htmlStr); 
    var root = doc.DocumentNode; 
    string s = ""; 
    foreach (var node in root.DescendantNodesAndSelf()) 
    { 
     if (!node.HasChildNodes) 
     { 
      string text = node.InnerText; 
      if (!string.IsNullOrEmpty(text)) 
      s += text.Trim() + " ";      
     } 
    } 
    return s.Trim(); 
}

出典

2012-02-06 11:53:49

：

ここ

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); 
doc.LoadHtml(htmlStr); 
HtmlNode node = doc.DocumentNode; 
return node.InnerText;

は失敗したコードですコードの一部に続いていくつかの方法のすべてのノード

出典

2012-02-05 23:18:09 Svisstack

htmlソースからページに表示されているテキストを抽出するにはどうすればよいですか？私はHtmlAgilityPack、次のコードを試してみましたが、それはHTMLリストからテキストをキャプチャしていません

答えて

関連する問題