2012-02-28 5 views
0

thisのようなページがあると、私はすべての回答テキストをルビーWebクローラーで抽出しようとしています。Webクローラーが「登録するかログインして完全なコンテンツを読む」

回答にアクセスするには、ノコギリとsearch('div[@class="answer_content"]').inner_textを使用していますが、実際にログインしていても、すべてのテキストにアクセスできないようです。約200ワード下にメッセージが届きます。または完全な内容を読むためにログインする。

また、このdivクラスは正しいものですか?

+0

あなたが「私がログインしている」ときは、ユーザーとしてログインしているか、アプリケーションがログインサーバー側を処理しているということですか? – ksol

+0

ユーザーとして、私はログインしています。 – user1238490

+0

あなたのページはどのように取得していますか?ログインするには通常、クッキーが必要です。 –

答えて

0

クローラから自分自身を認証する必要があるようです。私は数週間前にそれをやりました。 Tamper DataというFirefox拡張機能を使用して、ブラウザとサーバーの間のリクエストを見ることができました。私の場合、認証はセッションIDで処理されました。私はちょうどそれを元に戻し、私がサーバーに行った各要求にそれを渡す必要がありました。

あなたのケースでは、認証が別の方法で行われる可能性があります。あなた自身で確認する必要があります。とにかく、それが十分に明確でない場合、私は詳細を述べることができます。

+0

私は彼らがウェブビーコンを使用していると思います。それはかなり珍しいですか? – user1238490

+0

@ksolが正しいです。 http://mechanize.rubyforge.org/を使用すると、プログラムでログインし、Cookieを保持することができます –

関連する問題