私はApache Spark For Bigデータ処理を使用しています。データは、フラットファイルソースまたはJDBCソースからデータフレームにロードされます。ジョブは、spark sqlを使用してデータフレームから特定のレコードを検索します。Apache sparkをクエリエンジンとして使用するには?
だから、私は新しい検索条件のために何度も何度もジョブを実行しなければなりません。私は結果を得るために、spark submitを使ってJarファイルを提出しなければならないたびに。 データのサイズが40.5 GBであるため、毎回同じデータをデータフレームにリロードして、異なるクエリの結果を取得するのが面倒になります。
はので、私は必要なものは、ある
- 私は複数回のjarを提出アウトで複数の時間を一回のデータフレーム内のデータをロードし、それを照会することができれば方法は?
- 検索エンジン/クエリエンジンとしてsparkを使用できるのであれば?
- 我々は、一度データフレームにデータをロードし、遠隔RestAP
を使用してデータ・フレームを照会することができる場合>マイスパーク展開の現在の構成は
- 5ノードクラスタです。
- 糸rm上で実行される。
私はspark-jobサーバーを使用しようとしましたが、毎回ジョブも実行します。
_ rest Api _ _ -yupを使用してspark sqlを使用して既存のデータフレームを照会できます。 _私たちは検索エンジン/クエリエンジンとしてスパークを使用することができましたか?意見に基づいていますが、40GBのデータを使用するだけでまともなRDBMSを使用します。あなたはより良いROIを得るでしょう。 _aデータフレームを一度読み込めるかどうか - 複数の場合。 builitin thriftサーバーからさまざまな休憩オプションとデータグリッドまで。 – zero323
@ zero323それは良いでしょう。もっと正確に説明できますか? –
@KamalPradhan spark-jobserverを使用してジョブ間にキャッシュされたRDDを維持することは可能です。私はそれが働くためにあなたのRDDに名前をつけなければならないと思います。詳細については、[こちら](https://github.com/spark-jobserver/spark-jobserver#named-objects)を参照してください。 –