apache-spark

    33

    1答えて

    Big Dataプロジェクトの場合、繰り返しワークロードのメモリ内計算などの便利な機能を持つsparkを使用する予定です。ローカルファイルまたはHDFS上で実行できます。 しかし、公式のドキュメントでは、gzipファイルの処理方法に関するヒントは見つかりません。実際には、解凍されたファイルの代わりに.gzファイルを処理するのが非常に効率的です。 gzipファイルの読み込みを手動で実装する方法はあり

    6

    1答えて

    私は自分のシステムに入ってくる離散的なイベントのストリームを持っており、各イベントの内容に基づいてルールを適用する必要があります。また、これらのストリームイベントに対して複雑なイベント処理を適用したいと考えています。 制約 1.これらのルールはユーザー指定であり、動的に変更されます。 2.ルールが適用されるたびにシステムを再起動したくありません。 3. HA 4.だけ成熟したオープンソースのソリュ

    8

    2答えて

    私はスパークストリーミングでプログラミングしていますが、スカラには問題があります。私は、この関数の定義は、このような関数のStreamingContext.fileStreamを使用する をしようとしている: def fileStream[K, V, F <: InputFormat[K, V]](directory: String)(implicit arg0: ClassManifest[K]

    5

    1答えて

    私は、各ユーザーのメッセージを数え、トップ10を印刷するメッセージのリスト(JSON形式)を受け取る単純なストリーム処理Sparkジョブを作成しようとしています。ユーザー。 しかし、コンパレータ>を定義して縮小カウントをソートすると、java.io.NotSerializableExceptionがスローされ、すべてが失敗します。スパークのため 私のMavenの依存関係: <groupId>org

    10

    1答えて

    私はSpark(Berkeley)クラスタコンピューティングシステムに取り組んでいます。私の研究では、Redis、Memcachedbなどの他のメモリ内システムについて学びました。誰かが私にSPARKとREDIS(とMEMCACHEDB)の比較を与えることができれば素晴らしいと思います。スパークはこれらの他のインメモリシステムよりもどのようなシナリオで優位性がありますか?

    6

    1答えて

    私はscalaでの展開に新しく、sbt-assemblyプラグインを構成しました。 何日か前にhadoop、sparkなどの依存関係を追加した後、assemblyタスクは非常に遅くなり(8〜10分)、その前には< 30秒になりました。 ほとんどの場合、アセンブリjarの生成に使用されます(jarファイルのサイズが1MBになるまで数秒かかる)。 私は、first戦略によって解決される多くのマージの競

    16

    2答えて

    私はSparkにいる、私はAvroファイルからRDDを持っている。私は今、そのRDDにいくつかの変換を行うと、アブロファイルとして戻って保存したい: val job = new Job(new Configuration()) AvroJob.setOutputKeySchema(job, getOutputSchema(inputSchema)) rdd.map(elem => (new

    13

    2答えて

    CQLとメモリ内クエリエンジンSpark/Sharkの使用に関するあなたの考えと経験を聞きたいと思います。私が知っているところから、CQLプロセッサは各ノードのCassandra JVMの中で動作しています。 Cassandraクラスタに添付されたShark/Sparkクエリプロセッサが、分離したクラスタ内で外部で実行されています。また、Datastaxには、Hadoop/Hiveのデプロイを可能