apache-spark

0熱

1答えて

のタプルの唯一の2要素にreduceByKeyする私は[（ '成功'、 ''、1）、（」こののように見えるマップの結果を持っています'something_random'、1）] （ 'エラー'、 'エラー'、 'something_random'、1）、（ 'エラー'、 'something_random'、1）としてendupへの鍵で減らすとそこの方法です： [（ '成功'、2）、（ 'エラ

0熱

1答えて

スパークストリーミングジョブが「java.lang.OutOfMemoryError：新しいネイティブスレッドを作成できません」

私はスパークストリーミングジョブを実行しており、ストリーミング入力は3時間ごとに約50MBです。ジョブは最初の数時間で少数のファイルを処理しました。しかし突然、次のエラーで失敗しました。エラーが発生した場合、入力は受信されませんでした。スパークジョブが新しいスレッドを作成できませんでした。私はビジネスロジックのRDDをキャッシュしていますが、新しいスレッドが新しい入力ファイルごとに作成される

0熱

1答えて

hadoopで作成されたファイル名の変更 - Spark

書き込みによってHDFSで作成されたファイルには、独自の命名規則があります。カスタム名に変更するには、スクリプトを使用したオプションがあります。hadoop fs -mv oldname newname 作成したファイルにカスタム名を付けるために、Spark/Hadoopで利用可能な他のオプションはありますか？

1熱

1答えて

サービス展開時にDC/OSがスタックする

3つのマスタと2つのパブリックエージェントを持つテスト用DC/OSクラスタを構築してください。すべてがよさそうだ。 "acceptedResourceRoles":["slave_public"]構成のMarathonを通じてアプリケーションを配備しました。しかし、カタログセクションでSparkサービスを展開したい場合は、長時間詰まり、DCOS has been waiting for resou

0熱

1答えて

スパークコーディネーターで時間指定されたスパークジョブの特定の時間を取得する方法

私のコーディネーターが期待どおりに機能していないのに気がつきました。 2つのスパークジョブをそれぞれ実行して、2番目のジョブを最初のジョブの扶養者にしたいと考えています。私は毎時_SUCCESSファイルを生産する最初の仕事を完了しました。問題は、2番目のジョブが依存関係を見つけるときに間違っていることです。HOUR。実行時の時刻ではなく、常に00が表示されます。ここは、第2のジョブの依存 <da

0熱

1答えて

スパーク2ステップ参加

私は、2つのキーに基づいて結合したい2つのデータフレームを持っています。一致するものがない場合は、キー1だけに基づいて一致を取り込みたい（キー1の複数のレコードがあり、いずれか1つを選択できますが、1つのレコードのみを取り込む必要があります）： val df1 = spark.sparkContext.parallelize(List(("k0","k00","v0"), ("k1",

-1熱

1答えて

代替を再帰的に火花提出ジョブ

を実行するには、以下の私は上のアドバイスを必要とするシナリオ、シナリオです。スパークプログラムは、Hiveのデータに対してETL操作と複雑な結合を実行する必要があります。 Nifiから取り込まれたデータは連続的なストリーミングであるため、取り込んだデータに対して1〜2分ごとにSparkジョブを実行します。どちらをお使いになるのが最適ですか？スケジューラを使用して1分ごとにspark-sub

0熱

2答えて

Spark2.2.1互換性のないジャクソンバージョン2.8.8

私の構成は次のとおりです。 EclipseのNeon.3リリース（4.6.3）のWindows 7 64ビット（ScalaのIDEプラグイン）スカラ2.11 package it.scala // importo packages di Spark import org.apache.spark.SparkContext import org.apache.spark.SparkCo