学習目的のために、私はページのリクエストとレスポンスを再生しています。これを達成する方法を知る必要があります。私は何をしたいのですか? Windowsアプリケーションから取得し、そこからいくつかのコンテンツを抽出します。たとえばHTTPリクエストからコンテンツを抽出し、それから選択したコンテンツを取得
私はhttp://stackoverflow.com/questions
を今から呼びます。<div id="questions">
にあるすべての質問ノードを抽出し、それをフォーマットして表に表示します。どのように身体を導くことができるのか?私はここで正規表現から形容詞を抽出して抽出することもできますが、どうすればよいか分かりません。事前 ルラ
ページコンテンツが実際にUTF-8でない場合、これは失敗します。堅牢な実装では、本文中の 'Content-Type' HTTPヘッダーや' タグをチェックするか、文書自体から自動検出する必要があります。 –
とhtmlがうまく形成されていない場合はさらに難しくなりますxml。 –