私はそのようなthenextweb.com、mashable.comとreadwriteweb.comなどとしてトップの技術のウェブサイトを掻き取るウェブサイトを設計するC#でhtmlagilitypackを使用してWebページからリンクと投稿を抽出する方法は?
今すぐHtmlの敏捷性パックを使用してスクラップする一つの方法は、1つのウェブサイトがthenextweb.comを聞かせて取っているとしています記事のリンクとコンテンツを<tags>
に応じて取得します。つまり、<div class ="article-listing"> ..... </div>
を使用してリンクを取得します。 各ウェブサイトごとに同じように(ウェブサイトごとにタグが異なるため)デザインアルゴリズムがあります。ここで
var webGet = new HtmlWeb();
var document = webGet.Load(url);
var infos = from info in
document.DocumentNode.SelectNodes("//div[@class='article-listing']")
select new
{
Contr = info.InnerHtml
};
lvLinks.DataSource = infos;
lvLinks.DataBind();
(ポストとその画像は、日付など) ?
ありがとうございますが、これは私がやりたいことではありません。 – ItsLockedOut
@iKunu - あなたは質問を編集して、必要なものを正確に説明することができます。なぜこれが問題を解決していないのですか? RSSは、サイトからのストーリーを得るための好ましい方法です。 – Kobi
:私はすべてのストーリーでやる必要があるいくつかのカットムーミングがあります...それが私がウェブページからそれらをフェッチする必要がある理由です。しかし、今私はそれを行う方法を見つけました。ありがとう – ItsLockedOut