私は、非DBソース(例えば、CSV、OLTPシステム)から供給されたデータセットをグループ化、ピボット、結合および小計するためのいくつかの非常に基本的なツールを書いています。 「グループ化」方法は、これらのほとんどの中心に位置します。"グループ化"とその他のデータベースアルゴリズム?
しかし、データをグループ化するための効率的なアルゴリズムを作成するために多くの作業が行われていることは確かです。私はそれらを使用していないと確信しています。私のGoogle-fuは何かをまったく動かすことができませんでした。
グループ化されたデータを作成するためのより良い方法について説明しているオンラインの資料や書籍がありますか?
また、MySQLのソースなどを調べるだけでいいですか?
私はあなたがこの時点で最適化を完了したと思っていますが、Wes McKinneyは彼のパンダの図書館の問題によってグループにどのようにアプローチしたかについて少し書いています:http://wesmckinney.com/blog/mastering-high -performance-data-algorithms-i-group-by/ – DGrady