apache-spark

33熱

1答えて

Big Dataプロジェクトの場合、繰り返しワークロードのメモリ内計算などの便利な機能を持つsparkを使用する予定です。ローカルファイルまたはHDFS上で実行できます。しかし、公式のドキュメントでは、gzipファイルの処理方法に関するヒントは見つかりません。実際には、解凍されたファイルの代わりに.gzファイルを処理するのが非常に効率的です。 gzipファイルの読み込みを手動で実装する方法はあり

6熱

1答えて

複雑なイベントを処理する

私は自分のシステムに入ってくる離散的なイベントのストリームを持っており、各イベントの内容に基づいてルールを適用する必要があります。また、これらのストリームイベントに対して複雑なイベント処理を適用したいと考えています。制約 1.これらのルールはユーザー指定であり、動的に変更されます。 2.ルールが適用されるたびにシステムを再起動したくありません。 3. HA 4.だけ成熟したオープンソースのソリュ

8熱

2答えて

spark streaming fileStream

私はスパークストリーミングでプログラミングしていますが、スカラには問題があります。私は、この関数の定義は、このような関数のStreamingContext.fileStreamを使用するをしようとしている： def fileStream[K, V, F <: InputFormat[K, V]](directory: String)(implicit arg0: ClassManifest[K]

5熱

1答えて

SparkでソートするときにNotSerializableExceptionが発生する

私は、各ユーザーのメッセージを数え、トップ10を印刷するメッセージのリスト（JSON形式）を受け取る単純なストリーム処理Sparkジョブを作成しようとしています。ユーザー。しかし、コンパレータ>を定義して縮小カウントをソートすると、java.io.NotSerializableExceptionがスローされ、すべてが失敗します。スパークのため私のMavenの依存関係： <groupId>org

10熱

1答えて

メモリ内クラスタコンピューティングシステムの比較

私はSpark（Berkeley）クラスタコンピューティングシステムに取り組んでいます。私の研究では、Redis、Memcachedbなどの他のメモリ内システムについて学びました。誰かが私にSPARKとREDIS（とMEMCACHEDB）の比較を与えることができれば素晴らしいと思います。スパークはこれらの他のインメモリシステムよりもどのようなシナリオで優位性がありますか？

6熱

1答えて

依存関係を追加した後にsbtアセンブリタスクがゆっくり実行される

私はscalaでの展開に新しく、sbt-assemblyプラグインを構成しました。何日か前にhadoop、sparkなどの依存関係を追加した後、assemblyタスクは非常に遅くなり（8〜10分）、その前には< 30秒になりました。ほとんどの場合、アセンブリjarの生成に使用されます（jarファイルのサイズが1MBになるまで数秒かかる）。私は、first戦略によって解決される多くのマージの競

16熱

2答えて

Spark：Avroファイルに書き込む

私はSparkにいる、私はAvroファイルからRDDを持っている。私は今、そのRDDにいくつかの変換を行うと、アブロファイルとして戻って保存したい： val job = new Job(new Configuration()) AvroJob.setOutputKeySchema(job, getOutputSchema(inputSchema)) rdd.map(elem => (new

13熱

2答えて

CassとSpark/Sharkのクエリ対Hive/Hadoop（DSEバージョン）の比較

CQLとメモリ内クエリエンジンSpark/Sharkの使用に関するあなたの考えと経験を聞きたいと思います。私が知っているところから、CQLプロセッサは各ノードのCassandra JVMの中で動作しています。 Cassandraクラスタに添付されたShark/Sparkクエリプロセッサが、分離したクラスタ内で外部で実行されています。また、Datastaxには、Hadoop/Hiveのデプロイを可能