2017-08-03 17 views
0

私はApache Solr 6.6.0を使用して、フォルダ内のすべてのファイルを再帰的に索引付けして検索エンジンを構築しています。Solr 6.6.0のフィールドの設定を更新する

私は以下のようにします:1)私は雲の例に基づいてインデックスを作成します。 2)指定されたフォルダにあるすべてのファイルをインデックス化します。私は、ユーザーインターフェイスでクエリを検索するとき

bin\solr start -e cloud -noprompt 
java -Dc=gettingstarted -Dauto=yes -Ddata=files -Drecursive=yes -jar example\exampledocs\post.jar <path_to_folder> 

その後、私はそれが私の一番上の一致を提供していても、それは私の文書の内容を提供していない、ことがわかります。

<field name="_text_" type="text_general" multiValued="true" indexed="true" stored="false"/> 

見ての通り

は、フィールドが格納されていない、私は応答がない理由だと思います。いくつかの研究の後、私が管理し、スキーマファイルの名前付きフィールド「_text_」とその設定を見つけましたコンテンツを提供しない。

私は適切なトラックにいますか?もしそうなら、このフィールドの設定を編集するには?それを削除して、同じ名前でstored = trueの新しいものを作成する必要がありますか?

ありがとうございます。

答えて

1

_text_フィールドは、「すべてをキャッチ」フィールドとして使用されるため格納されません。最初に、ファイルの内容だけが含まれていることを確認するために、Solrの設定を確認する必要があります。そうであれば、そのフィールドを格納済みとしてマークすることができます。

しかし、

  • GUIは、エンドユーザーがコンテンツを見てみましょうするために、(ファイルのコンテンツにアクセスするための他の方法を持っているので、一般的に言えば、ファイルの内容のみが、保存されていない、インデックス化されています例えば、クライアントの観点から、それだけでHTTPのURLを作るの問題ですので、多くの場合、TXTファイルなどの静的リソースは、別々のApacheインスタンスに公開されている)
  • それはたくさん

だからあなたのインデックスのサイズが増加し、中他の言葉:検索のためにSolrを使用して所与のアイテムメタデータは、他のシステムに入るためにその識別子を使用し、対応するコンテンツを「見る」。これは、特にtxtファイルのような非構造化データを処理する場合の通常のシナリオです。

  • "通常"は常に有効であるとは限りません。ソルジャーにしたい場合もあるかもしれませんし、一般的にフィールドを格納済みとしてマークする他の正当な理由があるかもしれません(例:ハイライト)
+0

はい、私は、あなたが言ったように、_text_ 'はすべてを捕まえるので、コンテンツを含むすべてを含んでいなければなりません。しかし、私はこのフィールドを編集するのがドキュメントコンテンツを保存する最も適切な方法ではないと感じています。コンテンツを保存するためのより良い方法はありませんか? –

+0

それはあなたがコンテンツと何をしなければならないかによって異なります;)私が言ったように、人々はしばしば外部のhttpサービスを通してファイルコンテンツを提供します。 – Andrea

+0

私はそれがインデックスのサイズを増やすことに気付いていますが、私の目標は、Solrがどのように文書を解析し、その内容を抽出するのかを見ることです。したがって、自分自身でコンテンツを提供することは、私の目標には役に立たないでしょう。さらに、一致するフレーズを強調表示することは、追加したい別の機能です。 –

関連する問題