IgniteRDDを使用して、キャッシュレイヤーとしてigniteを導入することでspark sqlクエリを高速化しようとしています。 ignite docの例では、ignite cacheからデータをロードしてRDDを構築します。しかし、私たちのユースケースでは、データサイズが大きすぎてメモリを起動できない場合があります。実際にはhbaseにデータを入れます。 1、hbaseからデータをロードしてigniteRDDを構築します。 2、 spark sqlによって生成されたrddを共有し、spark sqlを高速化します。Igniteを使用したSpark SQL
0
A
答えて
1
2つの使用シナリオがあります。
最初のアプローチ。 igniteRdd.sql(...)
メソッドを使用してSparkからIgnite SQLクエリを実行する場合は、すべてのデータをIgniteクラスタに格納する必要があります。 Ignite SQLエンジンは、すべてのデータがメモリにキャッシュされていない場合、基礎となるサードパーティのパーシスタンスレイヤを照会できません。しかし、Ignite persistenceを有効にしてHBaseの代わりにすべてのデータを保存すれば、Igniteが独自の永続性を照会できるので、できるだけ多くのデータをキャッシュしてSQLを安全に実行できます。
2番目の方法は、cache storeとしてHBaseを使用し(Ignite SQLの代わりに独自のバージョンを実装する必要があります)、Ignite SQLではなくSpark SQLクエリを使用します。これは、後者ではすべてのデータIgnite持続性が使用されていない場合はRAMに格納されます。
第3のアプローチは、Ignite in-memory file system (IGFS)とHadoop acceleratorを試してみることです。 IGFSとアクセラレータはHDFSの上に配備されています。ただし、IgniteRDDs APIを使用することはできません。これは、すべての操作がこのパイプラインSpark-> HBase-> IGFS + Accelerator + HDFSを経由するためです。
私が選択すれば、私は最初のアプローチに行きます。
関連する問題
- 1. IgniteのSparkはIgniteの仕事を盗んで使用していますか?
- 2. spark-sqlを使用した一時テーブルキャッシュ
- 3. Apache SparkとApache Ignite
- 4. ODBCとJavaを使用したApache Ignite SQLへの接続
- 5. Apache IgniteとApache Sparkの統合、IgniteRDDを使用したSpark Contextへのキャッシュのロード
- 6. Ignite CacheStoreを介したSqlクエリ
- 7. Spark Sqlを使用してhdfsをクエリ
- 8. Apache Igniteを使用したキャッシュ・データ・フレーム(scalaを使用)
- 9. Spark SQLを使用した行の削除/更新
- 10. Spark Multi Clustersを使用したSQLクエリの改善
- 11. Ignite C++クライアントを使用してIgnite Javaキャッシュにアクセスする
- 12. Igniteヒープメモリの使用
- 13. データセットを使用したRegisterTempTable Spark Java
- 14. Apache Ignite - Sparkシェル実行時のエラー「JavaLoggerFileHandler」
- 15. spark SQLでcollect_listとcollect_setを使用
- 16. Spark/Spark SQLを使用してJSONブロブをデータフレームにフラット化するには
- 17. Apache IgniteはSparkの値を永久に保存します
- 18. Spark SQLを使用してテキストコンテンツをトークン化しますか?
- 19. spark-redshift - Spark 2.1.0を使用してエラーを保存しました。
- 20. Springを使用したApache Igniteのmongo設定
- 21. Hikariを使用したIgniteでのクラスタワイド接続リソース管理
- 22. Spark Kafka Apache Igniteとの構造化ストリーミング統合
- 23. Apache Spark 1.6を使用したセカンダリソート
- 24. コンフィギュレーション・ファイルを使用したspark submitジョブ
- 25. apache-sparkを使用したMergesort
- 26. MongoDBバックエンドを使用したSparkストリーミング
- 27. Pythonを使用したApache Spark TFIDF
- 28. Sparkの結合を使用したセカンダリソート?
- 29. varargsを使用したSpark UDF
- 30. Mavenを使用したApache sparkエラー
大きな感謝!これらの3つのアプローチはすべて埋め込みモードをサポートしていますか? –
@Jerometan、はい、絶対に!ただし、Igniteの開発者は、Igniteノードが純粋なクライアントでない限り、組み込みモードの使用をお勧めしません。https://issues.apache.org/jira/browse/IGNITE-7092 – dmagda