apache-spark

    1

    1答えて

    私のクラスタにデータを送信するアプリケーションを構築しています。 このデータは、Spark Streamingアプリケーションが実行されている特定のHDFSフォルダに保存されます。 このストリームアプリケーションでは、私は速く&安いdatascienceをします。 その後、AngularAppにデータを提供するために結果をElasticSearchにインデックスする必要があります。 すべてが、 を

    1

    1答えて

    私たちは糸クラスター上でスパークジョブを実行し、十分なリソースがない場合でもスパークジョブが開始することを発見しました。 極端な例として、スパークジョブは1000人のエグゼキュータ(4つのコアと20GB RAM)を要求します。そしてクラスタ全体では、r3.xlarge(4コアと32GB RAM)のノードが30個しかありません。実際には、30人のエグゼキュータだけで作業を開始して実行できます。 動的

    1

    1答えて

    私はSpark-2.2を使用しています。 私はSparkのバケツをPocingしています。私はバケット表を作成しました は、ここdesc formatted my_bucketed_tbl出力です: +--------------------+--------------------+-------+ | col_name| data_type|comment| +----------

    0

    1答えて

    IgniteRDDを使用して、キャッシュレイヤーとしてigniteを導入することでspark sqlクエリを高速化しようとしています。 ignite docの例では、ignite cacheからデータをロードしてRDDを構築します。しかし、私たちのユースケースでは、データサイズが大きすぎてメモリを起動できない場合があります。実際にはhbaseにデータを入れます。 1、hbaseからデータをロードし

    0

    1答えて

    私はGoogleのdataprocクラスタ上のスパークジョブを実行しようとしているが、次のエラーを取得しています: Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: class org.apache.hadoop.security.JniBasedUnixGroupsMapping

    2

    2答えて

    Longデータ型に変換したい16進コードのIcao列のDataFrameがあります。 Spark SQLでこれをどうすればできますか? | Icao|count| +------+-----+ |471F8D|81350| |471F58|79634| |471F56|79112| |471F86|78177| |471F8B|75300| |47340D|75293| |471F

    0

    1答えて

    スパークデータフレーム内の特定の列を無視して列車の異なる回帰モデルをどのように実行しますか? 1つのSpark DFで、機能とラベルが付いた2つの製品があるとします。 製品のIDは、seprateカラムにあります。 それぞれの製品について回帰分析を実行したいと思います。 これまでrelaviely簡単な分析のために、私が使用している w = Window().partitionBy("id")

    1

    1答えて

    RDDではgroupByKeyの使用をお勧めしていませんでした。reduceByKey()やaggregateByKey()などの代替手段を使用することをお勧めしました。これらの方法はそれぞれのパーティションで最初に減らされ、groupByKeyデータの量はシャッフルされます。 今、データセット/データフレームにこれが適用されるのかどうかという疑問があります。触媒エンジンは多くの最適化を行っている

    0

    1答えて

    EMRでHive Metastoreを使用しています。私はHiveSQLを使ってテーブルを手動で問い合わせることができます。 しかし、私は、スパーク仕事で同じテーブルを使用する場合、それは入力パスが存在しないと言う:S3:org.apache.hadoop.mapred.InvalidInputException:によって引き起こさ// 入力パスを私はS3で私の上記のパーティションのパスを削除した