spark-jobserver

    0

    2答えて

    私は、cassandraに接続するsparkジョブサーバーを作成しています。レコードを取得した後、私は単純なグループを実行し、それを合計したい。私はデータを取得することができますが、出力を印刷できませんでした。私は何時間もGoogleを試してきたし、Googleグループにも掲載している。私の現在のコードは以下の通りで、私は収集時にエラーが出ます。 override def runJob(sc: S

    1

    1答えて

    spark-jobserverをsparkクラスタ上で起動しようとしています。 サーバーをデプロイするには、github.com/spark-jobserver/spark-jobserver#deploymentのドキュメントに従います。 ./server_deploy.sh localを実行して展開します。 私はペーストビンために私たちのlocal.confとlocal.shをアップロードした

    1

    1答えて

    spark-jobserverをserver_start.shを使用して起動したスパーク・ジョブ・サーバをインストールしましたが、どのように進めても複数の作業者に起動することはできません。いくつかのコアとより多くのメモリで動作させることができますが、いくつかのノードで動作させることはできません。 ./server_start.sh --master spark://IP:PORT --deploy

    0

    1答えて

    NamenodeとResourceManager用にHAを備えた3ノードhadoopクラスタをセットアップしました。 NameNodeマシンの1つにSpark Job Serverもインストールしました。 私は、WordCount ExampleやLongPi Jobのような実行中のジョブサーバーテストの例をテストしましたが、問題なく完璧に動作します。また、Spark Job Server経由で結

    2

    1答えて

    DataStax Enterprise Edition 4.8には、Spark JobserverがサポートされているバージョンのApache Spark 1.4.1.1に対して特別にコンパイルされています。 SparkジョブはCassandraからデータを読み込み、集計したデータを同じKeyspaceの別のテーブルに書き込みます。 スパークジョブサーバーには、1時間ごとにジョブが自動的に実行され

    1

    2答えて

    SparlCSVを使用してSQLを起動する単純なスカラアプリケーションをJARにしようとしていますが、HDFSに保存されたCSVファイルのデータフレームを作成し、 CSVファイルの特定の列の最小値。 import com.typesafe.config.{Config, ConfigFactory} import org.apache.spark.SparkContext._ import o

    0

    1答えて

    前に呼び出さ有効である: 検証は、コンテキストの最初の検証を可能にし、任意 設けられた構成。ジョブを実行するためにコンテキストと構成が正常であれば、spark.jobserver.SparkJobValidを戻すとジョブが実行されます。そうでない場合は spark.jobserver.SparkJobInvalid(reason)を戻すとジョブが実行されなくなり、失敗の理由を伝える手段が提供されま

    1

    1答えて

    スパークの開始方法flatmapまたはexplodeのデータフレームの作成方法をご希望ですか? それはdf.groupBy("columName").countを使用して作成され、私はそれを収集する場合は、以下の構造を有した: [[Key1, count], [Key2, count2]] しかし、私はむしろ何かを達成するための適切なツールである何 Map(bar -> 1, foo -> 1

    0

    1答えて

    spark-jobserverで実行されるスパークジョブの単体テストを書きたいと思います。 設定にアクセスする必要がない限り、これは正常に動作します。以下のように設定が作成された Try(config.getString("myKey")) .map(x => SparkJobValid) .getOrElse(SparkJobInvalid("No value for m

    1

    2答えて

    私はSparkの完全な初心者です。私はCDH配布を使ってhadoopをインストールしないで、より長いパスを選択しました。Apache WebサイトからHadoopをインストールし、設定ファイルを自分で設定して、基本についてもっと理解しました。 は私が3ノードクラスタ(すべてのノードは、ESXサーバから作成したVMマシンです)を設定しています。 私はzookeeperメカニズムを使ってNamenod