apache-spark

    0

    1答えて

    のタプルの唯一の2要素にreduceByKeyする私は[( '成功'、 ''、1)、(」この のように見えるマップの結果を持っています'something_random'、1)] ( 'エラー'、 'エラー'、 'something_random'、1)、( 'エラー'、 'something_random'、1) としてendupへの鍵で減らすとそこの方法です: [( '成功'、2)、( 'エラ

    0

    1答えて

    私はスパークストリーミングジョブを実行しており、ストリーミング入力は3時間ごとに約50MBです。ジョブは最初の数時間で少数のファイルを処理しました。しかし突然、次のエラーで失敗しました。エラーが発生した場合、入力は受信されませんでした。スパークジョブが新しい​​スレッドを作成できませんでした。 私はビジネスロジックのRDDをキャッシュしていますが、新しいスレッドが新しい入力ファイルごとに作成される

    0

    1答えて

    書き込みによってHDFSで作成されたファイルには、独自の命名規則があります。カスタム名に変更するには、スクリプトを使用したオプションがあります。hadoop fs -mv oldname newname 作成したファイルにカスタム名を付けるために、Spark/Hadoopで利用可能な他のオプションはありますか?

    1

    1答えて

    3つのマスタと2つのパブリックエージェントを持つテスト用DC/OSクラスタを構築してください。すべてがよさそうだ。 "acceptedResourceRoles":["slave_public"]構成のMarathonを通じてアプリケーションを配備しました。しかし、カタログセクションでSparkサービスを展開したい場合は、長時間詰まり、DCOS has been waiting for resou

    0

    1答えて

    私のコーディネーターが期待どおりに機能していないのに気がつきました。 2つのスパークジョブをそれぞれ実行して、2番目のジョブを最初のジョブの扶養者にしたいと考えています。私は毎時_SUCCESSファイルを生産する最初の仕事を完了しました。問題は、2番目のジョブが依存関係を見つけるときに間違っていることです。HOUR。実行時の時刻ではなく、常に00が表示されます。ここ は、第2のジョブの依存 <da

    0

    1答えて

    私は、2つのキーに基づいて結合したい2つのデータフレームを持っています。一致するものがない場合は、キー1だけに基づいて一致を取り込みたい(キー1の複数のレコードがあり、いずれか1つを選択できますが、1つのレコードのみを取り込む必要があります) : val df1 = spark.sparkContext.parallelize(List(("k0","k00","v0"), ("k1",

    -1

    1答えて

    を実行するには、以下の私は上のアドバイスを必要とするシナリオ、 シナリオです。 スパークプログラムは、Hiveのデータに対してETL操作と複雑な結合を実行する必要があります。 Nifiから取り込まれたデータは連続的なストリーミングであるため、取り込んだデータに対して1〜2分ごとにSparkジョブを実行します。 どちらをお使いになるのが最適ですか? スケジューラを使用して1分ごとにspark-sub

    0

    2答えて

    私の構成は次のとおりです。 EclipseのNeon.3リリース(4.6.3) のWindows 7 64ビット (ScalaのIDEプラグイン) スカラ2.11 package it.scala // importo packages di Spark import org.apache.spark.SparkContext import org.apache.spark.SparkCo