私は、100,000行/秒を生成するシステムを持ち、各行のサイズは1KBで、データベース用にCassandraを使用したいと考えています。 Apache Kafkaからデータを取得し、それをデータベースに挿入する必要があります。 この量のデータをCassandraにロードする最良の方法は何ですか?Cassandra Bulk負荷データ
答えて
このためにカフカコネクトが設計されています。このページには、カサンドラシンクコネクタを含むコネクタのリストがあります。https://www.confluent.io/product/connectors/
私はkafkaからCSVメッセージを受け取ります。コネクタはavro形式で動作するようです。本当ですか? –
CSVメッセージについてはわかりませんが、jsonはavro: http://docs.datamountaineer.com/en/latest/cassandra-sink.html#legacy-topics-plain-text-payload-with-aに加えて実行可能です-json-string CSVをjsonやavroに変換し、それをCassandraに取り込むことができる新しいトピックに書き出すために、ストリームアプリケーションのようなものを書く方が簡単でしょう。また、CSV用の独自のコンバータを作成したり、Kafkaに同梱されているStringConverterを試すこともできます。これがCassandraとどの程度うまくいくかはっきりしていませんが、これらのオプションはあなた自身の完全なアプリを書くよりも簡単です。 – dawsaw
CSVからJSONまたはAVROへのデータ変換は、小さなApache CAMELモジュールで簡単に実装できます。それはKafka接続をサポートしているので、Kafkaから読んだり、@ dawsawで述べたようにKafkaに変換して書き戻したりすることができます。必要に応じてスケールすることもできます。 – Gautam
- 1. 負荷データは、JSP
- 2. スパーク負荷データ - LabelledPoint
- 3. jQueryのレイジー水平データ-SRCの負荷フェードや負荷イメージ
- 4. システム負荷とユーザー負荷
- 5. データテーブル:チャンクで負荷データ
- 6. オンデマンドでのスクロール負荷データ
- 7. イオン負荷データTHENディスプレイホームページ
- 8. 負荷テストツールの負荷テスト機能
- 9. ノードを追加した後のCassandraの負荷が異なる
- 10. ESとCassandraのCPU負荷が非常に高い
- 11. レール熱心な負荷検索データ
- 12. データ型YADCF - 負荷の入力フォーカス
- 13. 負荷クラスは、
- 14. VSTS負荷テストレポート
- 15. RMI負荷テストツール?
- 16. 負荷テーブル列
- 17. パフォーマンス/負荷/ストレステストオーケストレーションレイヤー
- 18. 負荷バランス
- 19. 負荷IFRAME
- 20. 負荷は()ダイアログ
- 21. 負荷ビデオ
- 22. は負荷
- 23. 負荷イメージが
- 24. 負荷QRコードリンク
- 25. 負荷値
- 26. アンドロイド:負荷が
- 27. アンギュラルート - 負荷
- 28. Pytorch負荷モデル
- 29. 負荷ベクトルドロワブルアンドロイド
- 30. コール::負荷()
データをバッチに分割します。好ましくはサイズ1000のバッチを作成し、そのデータをcassandra dbに書き込みます。 – kai