amazon-emr

    2

    1答えて

    EMarker(Spark、Zeppelin)を使用する場合、Zeppelin Sparkインタプリタの設定でspark.driver.memoryを変更すると機能しません。 EMR Webインターフェイス(aws CLIではなく)を使用してクラスタを作成するときに、Sparkドライバメモリを設定する最も簡単な方法は何ですか? ブートストラップアクションは解決策ですか? 「はい」の場合は、ブートス

    2

    1答えて

    私は1つのマシン "c3.8xlarge"のEMRクラスタを持っていますが、いくつかのリソースを読み終えた後、ヒープ私はpysparkを使用していますので、私は次のようにクラスタを構成しているので: ワンエグゼキュータ: spark.executor.memory 6グラム spark.executor.cores 10 スパーク.yarn.executor.memoryOverhead 4 09

    0

    2答えて

    私はDynamo DBテーブルのセットを持っています。そして、私はこれらのテーブルのデータ用にダイナミックリアルタイム(またはリアルタイムに近い)ダッシュボードを構築するための適切なソリューションを設計したいと考えています。 たとえば、テーブル「ユーザー」があり、各ユーザーアイテムに「性別」属性がある場合。私は男性/女性のユーザーの数を監視して、機能をリリースした後にどのように増減するかを確認する

    0

    1答えて

    こんにちは、sparkRデータフレームに直接DBテーブルを読み込む方法があるかどうかを調べようとしています。私はそれに私のハイブのmetastoreを持っているEMRクラスタにインストールされているrstudioを持っています。 私は、次の操作を行うことができます知っている: library(sparklyr) library(dplyr) sc <- spark_connect(master

    0

    1答えて

    私はEMRクラスターを持っています。私がinfluxDb + Grafanaと神経節を統合したいと思いテラフォームスクリプト resource "aws_emr_cluster" "emr-test" { name = "emr-test" applications = [..., "Ganglia", ...] ... } によって設定されています。構成の例が

    2

    1答えて

    S3にはGZIP CSV形式のファイルがたくさんあります(約20k-30kファイル)。 すべてのファイルに関係する分析(非常に単純)を実行したいと考えています。 それは次のようになります。 S3: //bucket-name/pt=something/dt=2017-01-01-00-00/1234/5432.csv.gz我々は試してみました: AWS EMRですが、多くの小さな ファイルがあるた

    0

    1答えて

    AWS docsは、このプロパティが「ジョブフローステップ実行時に設定されるJavaプロパティのリストです。これらのプロパティを使用して、JARファイルのメイン関数にキーと値のペアを渡すことができます。 しかし、どのように正確にそれらが渡されたか、主要な機能側でキーと値のペアのコレクションに正しくアクセスする方法については説明がありません(少なくとも、私は何も見つかりませんでした)。 クイックチェ

    0

    2答えて

    私はSparkアプリケーションをEMR上で実行しており、いくつかのprintln()ステートメントがあります。コンソール以外では、これらのステートメントはどこに記録されますか?私クラスタの マイS3 AWS-logsディレクトリ構造は次のようになります。 node ├── i-0031cd7a536a42g1e │   ├── applications │   ├── bootstrap-acti

    1

    1答えて

    私たちは糸クラスター上でスパークジョブを実行し、十分なリソースがない場合でもスパークジョブが開始することを発見しました。 極端な例として、スパークジョブは1000人のエグゼキュータ(4つのコアと20GB RAM)を要求します。そしてクラスタ全体では、r3.xlarge(4コアと32GB RAM)のノードが30個しかありません。実際には、30人のエグゼキュータだけで作業を開始して実行できます。 動的