2017-08-22 1 views
1

特定のエンティティに弾性のタグを付けることができます。これはサポートされていますか?例: ElasticSearchのエンティティタグ

Hello my name is Johnny

トークン Hello my name is johnny < person

にそれをタグ付けし、後でそれらのエンティティをハイライト表示するには:テキストの? 誰かがこのようなことやプラグインを知っているのか、あるいは何らかの方向性が役立つでしょうか。

答えて

2

Elasticsearchは、固有表現認識を行いません。ただし、この1つのプロセッサーと同じように、インテント・プロセッサーを使用することもできます(正確なユースケースのために変更する必要があります)。https://github.com/spinscale/elasticsearch-ingest-opennlp

ただし、ドキュメントのインデックスを作成する前に、名前付きエンティティの認識を行う方がよいでしょう。 openNLPやNLTKを試してみることもできますし、非営利プロジェクトの場合はスタンフォードNERを試すこともできます。インデックス作成の前に、自分自身で「ハイライト」タグを追加したいと思います。私はこのような何かを考えています:

<ne type="person">Johnny</ne> is from <ne type="place">New York</ne>

次の2つのフィールドを、タグなしのいずれかを分析するためのタグを破棄、または単にインデックスするためのカスタム・アナライザを使用することができます。

+0

はい、私はこれを考えました。タグを破棄するアナライザの提案に感謝します。私の選択肢は、検索される可能性の低いタグを作ることでした。 – aclokay

1

POSタグ付け

あなたは、品詞、それをサポートしていないElasticsearchをタグ付けを意味する場合。

たとえば、NLTKなどを使用して自分で行う必要があります。次に、タグ付けされたドキュメントのインデックスを作成します。 elasticsearchここで、それをサポートはい強調しに関する

ハイライト

は、ドキュメントは次のとおりです。

Higlight

+0

私はPOSタグ付けを意味するものではありませんでしたが、何か類似しています...ありがとうございます。 – aclokay