apache-spark

    8

    2答えて

    Google DataprocのSpark UIにアクセスするにはどのポートを使用しますか? Iは、ポート4040および7077、ならびにIファイアウォールが適切に構成されnetstat -pln を使用して見つかった他のポートの束を試みました。

    5

    1答えて

    私はカラムがuser, address1, address2, address3, phone1, phone2というデータフレームを持っています。 私はこのデータフレームを変換したい - 私が使用してマッピングするために列を変換することができましたuser, address, phone where address = Map("address1" -> address1.value, "add

    7

    1答えて

    私はArray[String]をSparkの寄木細工ファイルに保存しました。 私が使用してそれを読む: row.getAs[Array[String]]("result") しかし得る:ここで java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to [Ljava.la

    9

    1答えて

    Spark SQL DataFrameにデータがあり、取得しようとしているのは指定された日付範囲の現在の行より前のすべての行です。たとえば、私は7日前から与えられた行の前にすべての行を持っていると思います。ここ Window \ .partitionBy('id') \ .orderBy('start') と問題が来る:私はWindow Functionのように使用する必要

    11

    1答えて

    私はSpark 1.5.1のspark.mlパイプラインを持っています。このパイプラインは、一連の変圧器とそれに続くk平均推定器から構成されています。パイプラインをフィッティングした後にKMeansModel。clusterCentersにアクセスできるようにしたいのですが、方法を把握することはできません。 spark.ml相当のsklearnのpipeline.named_steps機能がありま

    13

    1答えて

    Spark SQLを使用しています(SQL構文に影響を与える場合はSparkに記載していますが、まだよく分かりません)。テーブルを再構造化しようとしていますが、同時に複数の列を転置しようとしています。 は基本的に私はそれがどのように見えるのデータを持っている: userId someString varA varB 1 "example1" [0,2,5] [1,2,9]

    7

    2答えて

    rdd.collect()の代わりにRDBでcollectAsMapを使用すると、パフォーマンスに何か影響はありますか?toMap? キー値がrddで、ドライバで実行されているので、大きなデータセットでcollect()が効率的でないことがわかっている限り、HashMapに変換したいのですが、代わりにパフォーマンスが影響しますか? オリジナル: val QuoteHashMap=QuoteRDD.

    13

    1答えて

    たとえば、私のチームがSparkで開発するための参照言語としてPythonを選択したとしましょう。しかし後でパフォーマンス上の理由から、Pythonコード(ScalaやJavaスケルトンを持つPythonスタブに似たもの)でそれらをマッピングするために、特定のScalaまたはJava固有のlibrairiesを開発したいと考えています。 カスタマイズされた新しいPythonメソッドを、Scalaや

    7

    2答えて

    Spark Scalaを使用してCSVファイルからすべての列のヒストグラムを計算しようとしています。 ヒストグラムをサポートするDoubleRDDFunctionsが見つかりました。 したがって、すべての列のヒストグラムを取得するために次のようにコード化しました。 列数 は、各列のRDD[double]を作成し、DoubleRDDFunctions var columnIndexArray = A

    7

    2答えて

    私は、カフカのトピックから来るメッセージに応答するJavaベースのSpark Streamingアプリケーションを開発中です。各メッセージについて、アプリケーションは何らかの処理を行い、その結果を別のカフカのトピックに書き戻します。 予期しないデータ関連の問題により、RDDで動作するコードが失敗し、例外がスローされることがあります。それが起こると、必要なアクションを実行してエラーのトピックにメッセ