Objective-Cでウェブページのソースを解析する

iPhoneでウェブサイトのソースを解析してそのページのURLを取得する方法はありますか？もしそうなら、あなたはどのようにそれをしますか？Objective-Cでウェブページのソースを解析する

おかげ

2009-07-07 Xcoder

正規表現をお勧めします。 RegexKitと呼ばれる、Cocoa用のオープンソースのRegexライブラリがあります。ほとんどの場合、コードにドロップするだけで "うまくいく"ことができます。

すべての画像が<img>タグになると仮定すると、画像のすべてのURLを取得することはあまり難しくありません（20行未満のコード）。すべてのイメージタグを取得するだけです（< img \ s + [^ >] + >）。その後、それらの一致を繰り返します。 src \ s * = \ s *（ "| '）？\ s *（[^ \ s"'] +）（\ s | "|"）それぞれの一致について、

あなたは、そのビットを微調整する必要があるかもしれませんが、それはあまりにも悪いことではないはずです。

出典

2009-07-07 21:45:10

あなたは正規表現を使用して、それを試みることができるが、私はそれをお勧めしません。 WebページがXHTMLに準拠するようにコーディングされていると仮定して、NSXMLParserを調べる必要があります。 TouchXMLはもう一つの良いライブラリです。

出典

2009-07-07 20:44:33

超簡単な方法はありません。私がそれをしなければならないとき、私はlibxml2 SAXパーサを書いた。 libxml2には不正な形式のhtmlで正常に動作するhtmlリーダーがあり、libxml2はベースシステムに含まれています。

出典

2009-07-07 20:45:09

はEvent Driven XML Parsing in the iPhone reference library

出典

2009-07-07 20:50:52 catsby

を見て、あなたが使用するすべてのアプローチではJavaScriptを経由して、動的にロードされた画像に拾っていないとOKです。

私が見ることができるもっとも近いことは、JavaScriptの読み込みを解析してそれらを読み込み、ファイル全体で正規表現を使用して ".jpg/.gif/.png"で終わるものを探していることです。そこから完全なURLを取得してください。 libxmlのアプローチは、imgタグではなくイメージへの参照を見逃してしまいますが、十分に良いかもしれません。

出典

2009-07-07 21:08:05

私は正規表現のために行くと言っています - あなたのプロジェクトにドロップすることができるCのregexestをラップする1ページライブラリがあります。

出典

2009-07-07 21:22:23

同意、あなただけのタグを取得するために、全体のドキュメントを解析する必要はありません。 –

Objective-Cでウェブページのソースを解析する

答えて

関連する問題