2017-07-25 7 views
0

私はSolrの文書のサブセットに対して「重要な用語」を得ようとしています。これは最良の方法かもしれませんが、私はSolrのTF-IDF機能を使用しようとしています。私たちはSolrにデータを保存しており、雷が激しくなります。私は "DF"カウントを検索やフィルタを通して、私の文書のサブセットに制限したい。Solr-文書のサブセットで重要な用語を見つけよう

http://localhost:8983/solr/techproducts/tvrh?q=name:apple&tv.tf=true&tv.df=true&tv.tf_idf=true&indent=on&wt=json&rows=1000

そしてもちろんのこと、私だけの名前に「りんご」を持っている文書を与えるが、私の文書頻度が与える:私は名前欄に「りんご」を探してるところ、これを試してみました私が望むように見えない、データセット全体からのカウント。私はSolrがこれを行うことができると思いますが、そうでないかもしれません。私は提案に開放されています。

おかげで、 エイドリアン

答えて

1

それは私のバックログで私が持っている1つの作品[1]です。

実際に必要なのは、フォアグラウンドセット(ドキュメントのサブセット)のドキュメントの頻度と、バックグラウンドセット(コーパス)のドキュメントの頻度です。 Solrはそれを箱から出さずに作業することができます。 弾性検索を使用すると、[2]

からインスピレーション[1] https://issues.apache.org/jira/browse/SOLR-9851

[2] https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-significantterms-aggregation.html

+0

おかげアレッサンドロができることをするためのモジュールがあります。それがまさに私が探しているものです。 –

関連する問題