2017-07-06 7 views
0

nutch 1.12とsolr 6.5を正常に接続し、認証されていないサイトをクロールしました。認証されたサイトをクロールしようとしている間、私はそれを続行できません。誰もそれを克服するために助けてもらえますか?solr 6.5 with nutch 1.12

エラー:

java.lang.RuntimeException: java.lang.IllegalArgumentException: No form exists: user-login 
    at org.apache.nutch.protocol.httpclient.Http.resolveCredentials(Http.java:485) 
    at org.apache.nutch.protocol.httpclient.Http.getResponse(Http.java:180) 
    at org.apache.nutch.protocol.http.api.HttpBase.getProtocolOutput(HttpBase.java:261) 
    at org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:295) 
Caused by: java.lang.IllegalArgumentException: No form exists: user-login 
    at org.apache.nutch.protocol.httpclient.HttpFormAuthentication.getLoginFormParams(HttpFormAuthentication.java:183) 
    at org.apache.nutch.protocol.httpclient.HttpFormAuthentication.login(HttpFormAuthentication.java:95) 
    at org.apache.nutch.protocol.httpclient.Http.resolveCredentials(Http.java:483) 

HTTPClientの-のAuth.xml:

<auth-configuration> 
    <credentials authMethod="formAuth" 
      loginUrl="<url>" 
      loginFormId="user-login" 
      loginRedirect="true"> 
    <loginPostData> 
     <field name="name" 
      value="*<name>*"/> 
     <field name="pass" 
      value="*<password>*"/> 
     <field name="op" 
      value="Log in"/> 
    </loginPostData> 
    </credentials> 
</auth-configuration> 

は、いくつかのリンクを探索したが解決しませんでした。

ありがとうございました。

+0

'$ NUTCH_HOME/confに/ Nutchの-site.xml'' plugin.includes プロトコルにHTTPClientを追加するには| urlfilter、正規表現| parse-(HTML |ティカ)| index-(基本|アンカー) | indexer-elastic | scoring-opic | urlnormalizer-(pass | regex | basic)正規表現によるプラグインのディレクトリ名の指定には、 が含まれます。 'すでにご使用の場合は無視し、 –

+0

に返信してください。詳細についてはエラーログをご覧ください。 –

答えて

0

提出する必要があるフォームをどのように特定しますか?あなたは次のことを置くhttpclient-auth.xmlファイルで:

loginFormId="user-login" 

だから、フォーム・ログインの適切なIDにこの値を変更し、フォームがuser-login IDを持たなければならないことを意味し、idでログインフォームを見つけるためにしようとしているプラ​​グインクロールしようとしているウェブページで

+0

ありがとう@ジョージルイス、私たちは直面しているエラーthatsどのようなポストメソッドを使用してWebページのフォームIDを識別する方法。私たちはフォームIDを使用する開発者ツールを使用してみましたが、 '

関連する問題