Elasticsearch
ingestプラグインを使用して、pdf文書でフルテキストベースの検索を実装する必要があります。私が単語someword
をpdf文書で検索しようとしているときに、空のヒット配列を取得しています。Elasticsearch ingest-attachmentプラグインを使用してPDFファイルをインデックスする方法はありますか?
//Code for creating pipeline
PUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data",
"indexed_chars" : -1
}
}
]
}
//Code for creating the index
PUT my_index/my_type/my_id?pipeline=attachment
{
"filename" : "C:\\Users\\myname\\Desktop\\bh1.pdf",
"title" : "Quick",
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}
//Code for searching the word in pdf
GET /my_index/my_type/_search
{
"query": {
"match": {
"data" : {
"query" : "someword"
}
}
}
、あなたはそれに「someword」を検索し、一致するものを見つけることができますか? – Alcanzar
@Alcanzarうん、それは単語を検索します。 – Ashley
これはhttp://stackoverflow.com/questions/37861279/how-to-index-a-pdf-file-in-elasticsearch-5-0-0-withinging-attachment-pluginの複製のようです。 PUTステートメントがファイルの特定の "データ"を入れていることに注意してください。特定のファイルデータを渡すには、カールなどを使用する必要があります。あなたが入れている "データ"は "Lorem ipsum dolor sit amet"です - Loremを検索すると結果は – Alcanzar