Webクローラーが「登録するかログインして完全なコンテンツを読む」

thisのようなページがあると、私はすべての回答テキストをルビーWebクローラーで抽出しようとしています。Webクローラーが「登録するかログインして完全なコンテンツを読む」

回答にアクセスするには、ノコギリとsearch('div[@class="answer_content"]').inner_textを使用していますが、実際にログインしていても、すべてのテキストにアクセスできないようです。約200ワード下にメッセージが届きます。または完全な内容を読むためにログインする。

また、このdivクラスは正しいものですか？

出典

2012-02-28 user1238490

あなたが「私がログインしている」ときは、ユーザーとしてログインしているか、アプリケーションがログインサーバー側を処理しているということですか？ – ksol

ユーザーとして、私はログインしています。 – user1238490

あなたのページはどのように取得していますか？ログインするには通常、クッキーが必要です。 –

クローラから自分自身を認証する必要があるようです。私は数週間前にそれをやりました。 Tamper DataというFirefox拡張機能を使用して、ブラウザとサーバーの間のリクエストを見ることができました。私の場合、認証はセッションIDで処理されました。私はちょうどそれを元に戻し、私がサーバーに行った各要求にそれを渡す必要がありました。

あなたのケースでは、認証が別の方法で行われる可能性があります。あなた自身で確認する必要があります。とにかく、それが十分に明確でない場合、私は詳細を述べることができます。

出典

2012-02-29 12:40:23 ksol

私は彼らがウェブビーコンを使用していると思います。それはかなり珍しいですか？ – user1238490

@ksolが正しいです。 http://mechanize.rubyforge.org/を使用すると、プログラムでログインし、Cookieを保持することができます –

Webクローラーが「登録するかログインして完全なコンテンツを読む」

答えて

関連する問題