rdd

0熱

1答えて

私はspark hbaseスクリプトを実行するためにspark-shellを使用しています。私は、このコマンドを実行すると： val job = Job.getInstance(conf) を私は java.lang.IllegalStateException: Job in state DEFINE instead of RUNNING

1熱

1答えて

RDDに対応する要素を別のRDDで圧縮する方法は？

私は2つのRDDを持っています。このように： RDD1 scala> val rdd1 = spark.sparkContext.parallelize(List(1,1,2,3,4,4)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[101] at parallelize at <console>:23 それは繰り

0熱

1答えて

RDD [Double]をScalaのVectorに変換する方法Spark

私はIndexedRowMatrixをdoubleにしました。私は、行列の各行の合計を計算し、結果をVectorに保存したいと思います。その後、私はこのベクターを放送したい。私は合計を含むDoublesのRDDを作成していますが、ベクトルに変換することはできません。それでは、基本的に質問は、IndexedRowMatrixから必要なベクトルを作成する方法です。

-1熱

2答えて

は、私が持っている2 RDDSはScalaの

を使用して参加する2 RDDs 最初の1 (productID,category) 秒1 (customerID,productID,quantity) どのように私は出力が(customerID,category,quantity)のように見えることができますか？ロジックは、第rddのcategoryに対応する第二rddの各productIDを交換することです。私は解決策のためのScalaを

1熱

1答えて

は、どのように私は次のように、文字列のリストのRDDを持っているのScala

で、リスト内の要素の組み合わせを作成します次のように入力します。 (('a','b'),('a','c'),('b','c'),('1','2'),('1','3'),('1','4'),('2','3'),'('2','4'),('3','4'),('e','f'),...) どのようにするのですか？

0熱

1答えて

RDD計算データセットをフィルタリングする

私はapache sparkで練習していましたが、いくつかの計算を試みました。しかし、私は私の望む結果を達成することができましたが、私はそれが働く前に2つの異なる方法を試しなければなりませんでした。私はRDDを作成した既存のデータセットを持っています。：私は、私は、既存のデータセットからRDDを作成したので、@で始まる単語をフィルタリングし、取得したいを「RT @NigeriaNewsdes

1熱

2答えて

FlatmapのScalaの[文字列、文字列、リストの[文字列]]

私はこのprbolemを持って、私はRDD[(String,String, List[String])を持っている、と私はRDD[(String,String, String)]を得るために、それを "flatmap" したいと思います：例： val x :RDD[(String,String, List[String]) = RDD[(a,b, list[ "ra", "re", "ri"]

0熱

1答えて

異なる種類のスカラを受け取る汎用関数を実装する方法

import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.rdd.RDD class BaseType(val a: String) extends Serializable { override def toString = "(" + a + ")" }

0熱

1答えて

Apache IgniteはSparkの値を永久に保存します

Apache Ignite with Sparkを使用してSparkの結果を保存していますが、saveValuesを実行すると非常に時間がかかり、コンピュータのCPUとファンの速度が狂ってしまいます。私は3GHzのCPUと16GBのメモリを持っています。私はそれに最終データフレームをマッピングするRDDを有する： val visitsAggregatedRdd :RDD[VisitorsSche

0熱

1答えて

スパークmapPartitionsWithIndex：パーティションを識別

パーティションを識別： mapPartitionsWithIndex(index, iter) 方法は、各パーティションに機能を駆動中に生じます。私は、 "インデックス"パラメータを使ってパーティションを追跡できることを理解しています。 "index = 0"条件を使用してデータセットのヘッダーを削除するために、このメソッドを使用した例が多数あります。しかし、どのようにして最初に読み取られたパ