rdd

    1

    1答えて

    Apacheのスパーク対mapPartitions対flatMap対マップの比較:mapPartitionsWithIndex 提案対mapPartitions対flatMap対マップの比較は、私たちの知識を向上させるために歓迎されています。

    0

    1答えて

    に別のRDDに基づくRDDをフィルターI持っているこのRDDの私はフィルタリングすると、それは次のように見えること: End of field Start of field Connection duration :私はこのようなことを最初の6行をフィルタリングしたい text (06.07.03.216) COPYRIGHT © skdjh 2000-2015 File 160614_545

    0

    1答えて

    これは私の例です。 val arr = Array((1,2), (1,3), (1,4), (2,3), (4,5)) val data = sc.parallelize(arr, 5) data.glom.map(_length).collect Array[Int] = Array(1, 1, 1, 1, 1) val agg = data.reduceByKey(_+_) a

    0

    2答えて

    2つのrdd、1つは辞書のリスト、もう1つは次のようなタプルのリストです - rdd1 = {{'id1'、['string'、 'string'、count]}、{'id2 'id3'、['string'、 'string'、count]}] rdd2 = [(id1、count)、(id2、count)、(id1、count)]、[文字列]、[文字列] id3、count)] ここで、rdd2

    1

    1答えて

    私はツリーをボトムアップ順に反復する必要があります。 isEmpty | union / \ t_m t_n | | ... ... | | t_n+1 t_1 T_I-1の使用で形質転換してしまったT_I RDD : は例えば、私は次のようにツリーを持っています。したがって、結合関数は両方の子RDDを必要とします。ボトムアップアルゴリズムは、(t_1、..

    1

    2答えて

    から2D行列を作成しますムービーID)には1があります。 Nが個別ユーザーの数である場合はユーザーIDを0-Nにマップし、Misの場合はムービーIDを0-Mにマップする必要があると思います異なる映画の数 EDIT:あなたが述べたように例 Movie ID-> Userid 1 2 3 4 5 6 7 1 0 1 1 0 0 1 0 2 0 1 0 1 0 0 0 3 0 1 1

    0

    2答えて

    ファイル(csv)を読み込み、そのスキーマを印刷しようとしました。私の問題は、私のファイルはSQLのようなクエリにヘッダがないということです。私はこのコードを試してみました : val logFile = "../resouces/cells.csv" val dfCells = spark.read .format("csv") .option("header", "false") .

    4

    4答えて

    メモリが限られていることを考慮して、スパークは各ノードからRDDを自動的に削除すると感じました。私はこの時間を設定可能であることを知りたいですか?メモリから 注RDDを立ち退かせるためにするとき、火花が決めるんどのように:私は約rdd.cache()

    1

    2答えて

    マップとして要素を持つRDDがあります。もちろん、RDD.getは使用できません。だから、今のように、私はこのマップのキーの値を取得するには、次の操作を行います。 val x = RDD.collect().flatten.toMap 、その後 x.get(key) のキーの値を取得します。今、rddに.collect()を適用しているので、エラーjava.lang.OutOfMemory

    0

    2答えて

    私は公園ペアrdd(key、Array(value1、value2、value3 .....))を持っています。 私はどのスカラー文を書くべきですか? どうすればフラットこのRDDと新しいRDD作成することもできます(キー、VALUE1)、(キー、値2)、(キー、値3)....