spark-jobserver

0熱

2答えて

マップを減らして、Cassandraでgroup byとsumを実行します。スパーク＆ジョブサーバー

私は、cassandraに接続するsparkジョブサーバーを作成しています。レコードを取得した後、私は単純なグループを実行し、それを合計したい。私はデータを取得することができますが、出力を印刷できませんでした。私は何時間もGoogleを試してきたし、Googleグループにも掲載している。私の現在のコードは以下の通りで、私は収集時にエラーが出ます。 override def runJob(sc: S

1熱

1答えて

spark-jobserverクラスタのコンテキストエラー

spark-jobserverをsparkクラスタ上で起動しようとしています。サーバーをデプロイするには、github.com/spark-jobserver/spark-jobserver#deploymentのドキュメントに従います。 ./server_deploy.sh localを実行して展開します。私はペーストビンために私たちのlocal.confとlocal.shをアップロードした

1熱

1答えて

クラスタ内の複数のノードでspark jobserverが起動していない

spark-jobserverをserver_start.shを使用して起動したスパーク・ジョブ・サーバをインストールしましたが、どのように進めても複数の作業者に起動することはできません。いくつかのコアとより多くのメモリで動作させることができますが、いくつかのノードで動作させることはできません。 ./server_start.sh --master spark://IP:PORT --deploy

0熱

1答えて

Spark Job Server経由でジョブを実行しています

NamenodeとResourceManager用にHAを備えた3ノードhadoopクラスタをセットアップしました。 NameNodeマシンの1つにSpark Job Serverもインストールしました。私は、WordCount ExampleやLongPi Jobのような実行中のジョブサーバーテストの例をテストしましたが、問題なく完璧に動作します。また、Spark Job Server経由で結

2熱

1答えて

毎時スパーク・ジョブ・サーバーの自動スパーク・ジョブをスケジュールする

DataStax Enterprise Edition 4.8には、Spark JobserverがサポートされているバージョンのApache Spark 1.4.1.1に対して特別にコンパイルされています。 SparkジョブはCassandraからデータを読み込み、集計したデータを同じKeyspaceの別のテーブルに書き込みます。スパークジョブサーバーには、1時間ごとにジョブが自動的に実行され

1熱

2答えて

SparkJob ServerでSparksqlとSparkCSVを使用する

SparlCSVを使用してSQLを起動する単純なスカラアプリケーションをJARにしようとしていますが、HDFSに保存されたCSVファイルのデータフレームを作成し、 CSVファイルの特定の列の最小値。 import com.typesafe.config.{Config, ConfigFactory} import org.apache.spark.SparkContext._ import o

0熱

1答えて

SparkJobServerは - （）は、常にSparkJobServerドキュメントによればRUNJOB（）

前に呼び出さ有効である：検証は、コンテキストの最初の検証を可能にし、任意設けられた構成。ジョブを実行するためにコンテキストと構成が正常であれば、spark.jobserver.SparkJobValidを戻すとジョブが実行されます。そうでない場合は spark.jobserver.SparkJobInvalid（reason）を戻すとジョブが実行されなくなり、失敗の理由を伝える手段が提供されま

1熱

1答えて

スパークデータフレームのフラット化

スパークの開始方法flatmapまたはexplodeのデータフレームの作成方法をご希望ですか？それはdf.groupBy("columName").countを使用して作成され、私はそれを収集する場合は、以下の構造を有した： [[Key1, count], [Key2, count2]] しかし、私はむしろ何かを達成するための適切なツールである何 Map(bar -> 1, foo -> 1

0熱

1答えて

スパークジョブサーバユニットジョブのテスト

spark-jobserverで実行されるスパークジョブの単体テストを書きたいと思います。設定にアクセスする必要がない限り、これは正常に動作します。以下のように設定が作成された Try(config.getString("myKey")) .map(x => SparkJobValid) .getOrElse(SparkJobInvalid("No value for m

1熱

2答えて

Spark JobsをSpark Clusterに送信する

私はSparkの完全な初心者です。私はCDH配布を使ってhadoopをインストールしないで、より長いパスを選択しました。Apache WebサイトからHadoopをインストールし、設定ファイルを自分で設定して、基本についてもっと理解しました。は私が3ノードクラスタ（すべてのノードは、ESXサーバから作成したVMマシンです）を設定しています。私はzookeeperメカニズムを使ってNamenod