2017-01-30 13 views
1

1秒間に800万行程度の膨大なデータがあります。各行には12個の数値(タイムスタンプ、整数、浮動小数点数がありますが、テキストはありません)があります。ストリーミングインサートを探していますが、速度を達成できるのであればバルクインサートで管理できます。Druid/Cassandraのデータベースに100万行+秒を挿入する

クエリ:クエリは基本的に集計です。

私はドルイドを見ましたが、私たちにとって絶対に必要なナノ秒のタイムスタンプはサポートしていません。誰もこの制限をうまく回避しましたか?

カサンドラに100万回/秒の挿入に成功した人はいますか?どんな種類のクラスタが必要ですか?

必要に応じて、より具体的な情報を提供することができます。

+2

投票ツールの勧告を求めて、閉じるには、「オフトピック」と考えられます。 – Aaron

+0

これを編集して、同じ投稿内の各DBMSに関する質問をすることはできますか? – user1471299

+0

編集されました@Aaron。 – user1471299

答えて

1

私は、高性能な時間のためにkdb +(Kx Systemsから)を調べることをお勧めします。 シリーズの摂取とCEP。そのタイムスタンプのナノ秒単位の粒度。

最近のインダストリアルIoTアプリケーションでは、1つの控えめなサーバー(2つのコア)で、kdb +は、CPU使用率が低くても毎秒450万イベントの持続的な(7x24x365)摂取率を維持しました。私たちはkdb +のメモリ内データベースを使用し、ディスク上のデータベースへの書き込みを頻繁に行っていました。クラスタは必要ありませんでした。

+0

こんにちは、提案に感謝します。私はkdbを見てきました。私が正しく理解すれば、DB全体がメモリに保存されます。メモリ内ではなくオンディスク上のデータをクエリするときのkdbの経験は何ですか?また、1秒あたり450万イベントの場合、1つのノードでディスク領域が不足することはありませんか? – user1471299

+1

kdb +にはメモリ内およびディスク上のデータベースがあり、両方とも同じq-sql srciptを使用して照会できます。ディスク上のデータベース(多くの場合、履歴データベース-HDBと呼ばれます)は、1秒あたり800万行のボリュームを与えられたPBのデータを保存することができます。 – notlightnorchroma

+0

kdbは、データをメモリに格納するため、クエリ速度が非常に速いという印象を受けました。しかし、データがディスクにフラッシュされ、この履歴データ(ディスクに格納されている)でクエリを実行すると、クエリの速度はかなり遅くなります。あなたはこれを経験しましたか? – user1471299

関連する問題