私は1Mから10Mまでの文字列のリストを持っており、それらのどれが単一の文書(例えば、1ページのテキスト)内にあるかを見たいと思っています。複数の文字列を1つの文書で検索する
Lucene(Solr/Elasticsearch)を使用して、文字列を含むすべてのドキュメントを見つけることができます。しかしこれは逆です。
Aho-Corasicなどの文字列検索アルゴリズムの1つに基づいてアドホックな解決策をプログラムすることはできますが、私は車輪を再発明すると仮定します。これにはライブラリ/フレームワークはありますか?
(それはすべての違いを、私は、言葉に文字列や文書を分割して元気です)