私はSpark Streamingアプリケーションを実行していますが、履歴のルックバックのためにrddをキャッシュしています。バッチは1分、平均処理時間は14秒です。したがって、エグゼキュータは全体を計算しませんバッチ持続時間。私はメモリ内のrddをキャッシュしているので、エグゼキュータもそうです。また、エグゼクティブが黙っている場合、エグゼクティブの抱擁はリソースの浪費であると考えてください。Sparkのリソース使用に関する疑問
0
A
答えて
0
これは達成したいことによって異なります。
Spark 2.0では、動的割り当てがSpark Streamingに設定され、バグはありません。
問題が発生しました。データの大量のワークロードがあると、少なくとも1つのエグゼキュータをデータ受信に使用しないとデータが失われる可能性があります。今これはSpark 2.0で解決され、データのリリースが機能しています。
膨大な量のデータがある場合に、キャッシュにデータを保存する利点は何ですか?シャッフルせずにデータを処理することができます。応答時間が長くなる可能性があります。
ただし、プロセスが1分であれば1分です。平均時間内にデータを処理するのにわずか14秒かかります。あなたのデータを公開し、他の仕事のためのスペースを開くために労働者を解放することをお勧めします。
タスクに十分なリソースがない場合、タスクはキューに入れられ、リソースを持ってすぐに処理されます。
リスクとは何ですか?あなたがあなたの糸にpreemptionを持っていない場合、労働者を解放すれば、資源を取り戻すのが難しいかもしれません。これは、クラスタに依存するリソースの無駄です。
私は何をしますか:自分の仕事を処理できるいくつかのキューを作成します。優先度の高いキューを設定し、そこにストリーミングを設定し、他のキューに他のジョブを設定して、動的割り当てをオンにしてキャッシュを解放します。アプリケーションがより多くのリソースを必要とする場合、Yarnはそれを処理します。
関連する問題
- 1. 利用可能なリソースと価格に関する疑問
- 2. yieldに関する疑問()
- 3. グリッドシステムに関する疑問
- 4. Jpcapcaptureに関する疑問
- 5. ワールドビュープロジェクションマトリックスに関する疑問XNAを使用したレイトレースの質問
- 6. レンダリングに関するSDLの疑問
- 7. CodeIgniter:HMVCとViewsに関する疑問
- 8. C++ポインタに関する疑問
- 9. オンプレミス・アクティブ・ディレクトリに関する疑問
- 10. アンドロイドアプリ開発に関する疑問
- 11. Bazelでconfig_settingに関する疑問
- 12. Javaファイナライズに関する疑問
- 13. キャッシングまたはクッキーベースのセッションを使用するサーバーサイドセッションに関する疑問
- 14. ユニークな日付の問題に関するJavaの疑問
- 15. Android:文字列リソースに疑問符を入れる方法は?
- 16. ASP.netのリソースに関する問題
- 17. Spark-CSV sqlContextに関する問題
- 18. Laravel 4クエリービルダーでリテラルの疑問符を使用するには
- 19. 更新クエリを使用した疑問
- 20. オブジェクトプールを使用した疑問
- 21. MongoDBに関する疑問を明確にする
- 22. Androidのバックグラウンドサービス:CPUとネットワークの使用に疑問がある
- 23. printfの* ++ pの使用に疑問がある
- 24. クエリーで疑問符を使用するには?
- 25. Sparkでウィンドウ関数を使用する
- 26. sparkでOrderedRDD関数を使用する
- 27. 抽象クラスの子クラスのインスタンス化に関する疑問
- 28. アプリケーションの構造と通信の方向に関する疑問
- 29. SQLiteOpenHelperに関する疑問と複数のテーブルの作成
- 30. GITのdiffコマンドの-uパラメータに関する疑問
"私はあなたのデータを公開することをお勧めします"、私は歴史の目的のために次の反復のために必要なので、私のデータを公開することはできません。 – JSR29
あなたのデータは本当に巨大ですか?ストリームの入力ごとにデータのすべてのエントリをチェックしますか? –
はいデータのすべてのエントリをチェックし、データのサイズは〜200KBです – JSR29