2016-08-08 24 views
18

私はウェブサイトをクロールしようとしています。具体的には、ManifoldCFにSAML認証を持ち、クロールしたデータをApache SolrにインデックスするGoogle Siteを使用しています。しかし、URLをクロールすると、ログインページに302リダイレクトが表示され、RESPONSECODENOTINDEXABLEと表示されます。ManifoldCFまたはnutchを使用してSAML認証を持つWebサイトをクロールするにはどうすればよいですか?

正しく認証されているかどうかわかりません。 manifoldCFには、HTTP basic認証、NTLM authentication、およびSession-basedのアクセス資格認証方式のオプションがあります。私は、SAML認証ではなくフォームベースの認証のように見えるSession based認証方法を使用しました。

SAML認証を持つmanifoldCFを使用して誰かがウェブサイトをクロールしましたか? manifoldCFではなく、Apache Nutch経由でこれを行うことができました。恐れ入りますが、HTTP basic、DigestNTLMという認証のみを提供しています。

洞察力があれば助かります。ここに誰かが簡単に達成できると思えば、問題に関するより多くの情報を提供することができます。基本的に私がhttps://sites.google.com/a/my-sub-domain.comをクロールすると、SSOログインページにリダイレクトされ、クロールがそれ以上クロールを拒否して302エラーが発生します。イントラネットベースのウェブサイトです。

答えて

0

これが役立つかどうかは不明ですが、試してみてください。 nutchでは、ページにログインするための資格情報を提供できます。confディレクトリにhttpclient-auth.xmlファイルがあります。 資格情報と共にあなたのホスト名を提供することができます。

<auth-configuration> 
    <credentials username="admin" password="admin123"> 
     <authscope host="hostname" realm="login"/> 
     <default/> 
    </credentials> 
</auth-configuration> 

同様に、この構成には任意の数の資格情報を追加できます。

httpsサイトをクロールするには、nutch-conf.xmlのplugin.includesプロパティをprotocol-httpからprotocol-httpclientに変更します。

関連する問題