I am trying to index documents (read Pdf for ex) into elastic search.
My objective is to search documents based on matching content string.
To extract the document content, I am using Apache Tika .
I am not sure how should i index the document content along with document meta-data.
私は考えることができるオプションは次のとおりです。弾性検索でPDF文書コンテンツをどのようにインデックス化しますか?以下は
は、私は単なる文字列としてデータ型を有する一つのフィールド「コンテンツ」を追加して、単にそこに文字列として文書コンテンツを格納する必要がありますか? (ただし、大きなサイズのドキュメントでは を使用しても問題ありません)
またはこのフィールドをバイナリにしてそこのドキュメントコンテンツをエンコードする必要があります。 (しかし、それは、検索されません)
お知らせください。
私の使用例は2番目のランダムな内容です。私は特定のファイルが何を持っているのかわかりませんが、テキストがある場合は、それを弾力的な検索に保存し、それらのテキストに基づいて検索可能にしたいと思います。全文検索であっても、文書コンテンツを弾性検索に格納する必要があり、それが私の懸念事項です。ドキュメントコンテンツをどのように保存する必要がありますか?なぜなら私が文字列として格納すると、大きな文書に問題が生じるからです。 – AKS
大きい文字列はElasticで格納できますが、Luceneでは索引付けできません。しかし、大きな文字列を短い文字列として自動的に解釈する仕組みがあります。ここであなたの研究を開始することができます:http://stackoverflow.com/a/28831582/5848808 - 幸運! –