名前付きエンティティを探すSolrでカスタムTokenizerを作成しました。私はこの情報を使って、lucene/solr文書内の別々のフィールドにデータを入れることができるようにしたいと考えています。Solr:Tokenizerから別のフィールドを取り込みます
例として、テキストから抽出されたすべてのロケーション名を「locations」という多値フィールドに取り込みたいとします。場所を抽出するために、最初にテキストをトークン化して単語を分離し、どのトークンが場所であるかを判断する。このプロセスの後、トークナイザのトークンを発行したいだけでなく、テキストから抽出されたすべてのロケーション名をフィールド "locations"に設定します。
私が行った研究から、TokenizerまたはTokenizerFactoryからSolrDocumentオブジェクトにアクセスする方法はないため、ここからフィールドを取り込む方法はありません。
これまでの解決策は、テキストを処理してフィールドを抽出するカスタムUpdateRequestProcessorFactoryを作成し、Tokenizerがトークンを取得するためにテキストAGAINを処理することです。私はこの作業を行う方法を見つけて、そのテキストを一度だけ処理したいと考えています。