異なるWebサイトからPDFリンクのリストを取得しようとしています。まず、Webクライアントクラスを使用してページソースをダウンロードしています。次に、sgmlReaderを使用してHTMLをXMLに変換します。私は「PDFファイル」を含むすべてのリンクを取得する必要がありXML:C#を使用して特定のテキストの要素を検索する
<p><a href="pub/1985_to_1997_Board_Action_Summary.pdf">1985 to 1997 Board Action Summary</a></p>
:だから、ある特定のサイトのために、私はこのようになりますタグを取得します。明らかに、すべてのウェブサイトが同じように配置されているわけではないので、<p>
タグを検索するだけで十分な動的性はありません。私はむしろlinqを使用しないだろうが、もし私がする必要があります。前もって感謝します。
XMLDocumentクラスには「ルート」メソッドがありません。別のクラスを使用する必要がありますか? – broke
はい、私はXDocumentを参照しています。私が正しく覚えていれば、XmlDocumentインスタンスからXDocumentを作成することができます。 –
"a"が小文字になると、これはかなり効果的です。それは首都の "A"しかしそれは壊れます。 – broke