rdd

    0

    1答えて

    私はspark hbaseスクリプトを実行するためにspark-shellを使用しています。 私は、このコマンドを実行すると: val job = Job.getInstance(conf) を私は java.lang.IllegalStateException: Job in state DEFINE instead of RUNNING

    1

    1答えて

    私は2つのRDDを持っています。このように: RDD1 scala> val rdd1 = spark.sparkContext.parallelize(List(1,1,2,3,4,4)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[101] at parallelize at <console>:23 それは繰り

    0

    1答えて

    私はIndexedRowMatrixをdoubleにしました。私は、行列の各行の合計を計算し、結果をVectorに保存したいと思います。その後、私はこのベクターを放送したい。 私は合計を含むDoublesのRDDを作成していますが、ベクトルに変換することはできません。 それでは、基本的に質問は、IndexedRowMatrixから必要なベクトルを作成する方法です。

    -1

    2答えて

    を使用して参加する2 RDDs 最初の1 (productID,category) 秒1 (customerID,productID,quantity) どのように私は出力が(customerID,category,quantity)のように見えることができますか? ロジックは、第rddのcategoryに対応する第二rddの各productIDを交換することです。 私は解決策のためのScalaを

    1

    1答えて

    で、リスト内の要素の組み合わせを作成します次のように入力します。 (('a','b'),('a','c'),('b','c'),('1','2'),('1','3'),('1','4'),('2','3'),'('2','4'),('3','4'),('e','f'),...) どのようにするのですか?

    0

    1答えて

    私はapache sparkで練習していましたが、いくつかの計算を試みました。しかし、私は私の望む結果を達成することができましたが、私はそれが働く前に2つの異なる方法を試しなければなりませんでした。 私はRDDを作成した既存のデータセットを持っています。 :私は、私は、既存のデータセットからRDDを作成したので、@で始まる単語をフィルタリングし、取得したい を「RT @NigeriaNewsdes

    1

    2答えて

    私はこのprbolemを持って、私はRDD[(String,String, List[String])を持っている、と私はRDD[(String,String, String)]を得るために、それを "flatmap" したいと思います: 例: val x :RDD[(String,String, List[String]) = RDD[(a,b, list[ "ra", "re", "ri"]

    0

    1答えて

    import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.rdd.RDD class BaseType(val a: String) extends Serializable { override def toString = "(" + a + ")" }

    0

    1答えて

    Apache Ignite with Sparkを使用してSparkの結果を保存していますが、saveValuesを実行すると非常に時間がかかり、コンピュータのCPUとファンの速度が狂ってしまいます。私は3GHzのCPUと16GBのメモリを持っています。 私はそれに最終データフレームをマッピングするRDDを有する: val visitsAggregatedRdd :RDD[VisitorsSche

    0

    1答えて

    パーティションを識別: mapPartitionsWithIndex(index, iter) 方法は、各パーティションに機能を駆動中に生じます。私は、 "インデックス"パラメータを使ってパーティションを追跡できることを理解しています。 "index = 0"条件を使用してデータセットのヘッダーを削除するために、このメソッドを使用した例が多数あります。しかし、どのようにして最初に読み取られたパ