2017-11-13 19 views
0

こんにちは、私はSolrで新しく、Windows 7でSolr 7.0.0を使用しています。Solrはクラウドモードで動作しています。 私は、コレクションを作成し、インデックスには、次のコマンドを使用して、フォルダ内に常駐するPDFおよびHTMLファイルのリストを試してみました:solrのpdfファイルとhtmlファイルの索引付けでエラーが発生する

> java -jar -Dc=guidanceDoc -Dauto example\exampledocs\post.jar M:\Projects\guidance\documents\* 

私のフォルダ内のPDFファイルは、しかし、何も「.PDF」の拡張子を持っていない、HTMLファイルの拡張子はhtmです。

上記のコマンドを使用してインデックスを作成する間、pdfファイルはエラーなしでインデックス付けされます。

> POSTing file ucm073837.htm (text/html) to [base]/extract 
> SimplePostTool: WARNING: Solr returned an error #400 (Bad Request) for 
> url: http 
> ://localhost:8983/solr/guidanceDoc/update/extract?resource.name=M%3A%5CProjects% 
> 5Cguidance%5Cdocuments%5Cucm073837.htm&literal.id=M%3A%5CProjects%5Cguidance%5Cd 
> ocuments%5Cucm073837.htm SimplePostTool: WARNING: Response: { 
> "responseHeader":{ 
>  "status":400, 
>  "QTime":10}, "error":{ 
>  "metadata":[ 
>  "error-class","org.apache.solr.common.SolrException", 
>  "root-error-class","org.apache.solr.common.SolrException"], 
>  "msg":"Document contains multiple values for uniqueKey field: id=[M:\\Projec ts\\guidance\\documents\\ucm073837.htm, UCM073837]", 
>  "code":400}} SimplePostTool: WARNING: IOException while reading response: java.io.IOException : Server returned HTTP response code: 
> 400 for URL: http://localhost:8983/solr/gu 
> idanceDoc/update/extract?resource.name=M%3A%5CProjects%5Cguidance%5Cdocuments%5C 
> ucm073837.htm&literal.id=M%3A%5CProjects%5Cguidance%5Cdocuments%5Cucm073837.htm 
  • どのように私はこの問題を解決することができます。プロセスは、htmlファイルを取得する場合、次のようにしかし、コマンドを実行している間に、エラーが表示さ?

答えて

0

このhtmlファイルのインデックス作成の問題は、拡張子とは関係ありません。エラーメッセージに記載されているとおり:

Document contains multiple values for uniqueKey field: id=[M:\\Projec ts\\guidance\\documents\\ucm073837.htm 

uniqueKeyはファイル内に複数回存在してはなりません。もう一つの可能​​性は、schema.xmlのuniqueKeyをidフィールドではなく他のフィールドに変更することです。

+0

ご回答ありがとうございます。文書はpdfとhtmlです。私は自分で識別子を割り当てませんでした。すべてが自動的にsolrによって行われます。もっと具体的に私を導くことができますか? – user6725114

関連する問題