私は、字句解析をM個のバケット(+/- 1文字列)に分割したいN個の文字列を持っています。また、N >> M。文字列を辞書的にグループ化する(Python)
直接的な方法は、すべての文字列をソートし、結果のリストをM個のバケットに分割することです。
代わりに、完全なリストが利用可能になる前に、作成された各文字列をバケットにルーティングすることでこれを近似したいと思います。
文字列をバケットに割り当てる高速かつ分化した方法はありますか?私は本質的に、整数のモジュロ演算子の文字列に相当するものを探しています。おそらく、辞書順を維持するハッシュですか?それも可能ですか?