私はウェブサイトをクロールしようとしています。具体的には、ManifoldCF
にSAML認証を持ち、クロールしたデータをApache SolrにインデックスするGoogle Site
を使用しています。しかし、URLをクロールすると、ログインページに302
リダイレクトが表示され、RESPONSECODENOTINDEXABLE
と表示されます。ManifoldCFまたはnutchを使用してSAML認証を持つWebサイトをクロールするにはどうすればよいですか?
正しく認証されているかどうかわかりません。 manifoldCFには、HTTP basic
認証、NTLM authentication
、およびSession-based
のアクセス資格認証方式のオプションがあります。私は、SAML
認証ではなくフォームベースの認証のように見えるSession based
認証方法を使用しました。
SAML
認証を持つmanifoldCFを使用して誰かがウェブサイトをクロールしましたか? manifoldCF
ではなく、Apache Nutch経由でこれを行うことができました。恐れ入りますが、HTTP
basic、Digest
、NTLM
という認証のみを提供しています。
洞察力があれば助かります。ここに誰かが簡単に達成できると思えば、問題に関するより多くの情報を提供することができます。基本的に私がhttps://sites.google.com/a/my-sub-domain.comをクロールすると、SSOログインページにリダイレクトされ、クロールがそれ以上クロールを拒否して302エラーが発生します。イントラネットベースのウェブサイトです。