rdd

    1

    1答えて

    私は多くの列を持つデータフレームをしたと仮定すると、行DATAFRAMEから特殊文字を削除し、いくつかのタイプ文字列他の人がint型を入力し、他の人がマップを入力します。 フィールド/列types: stringType|intType|mapType<string,int>|... |--------------------------------------------------------

    0

    3答えて

    私はSparkの新機能です。 DataFrameをPOJOのRDDに変換したい。 Like: JavaRDD<POJOClass> data = df.toJavaRDD(); ここで、dfはDataFrameです。 df.show()が与える次のように +---------+---------+---------+---------+ | A | B | C | D |

    0

    2答えて

    の補数をもたらすために参加: 最初の(ユーザID、のMOV ID、評価、タイムスタンプ) data_wo_header: RDD[String] scala> data_wo_header.take(5).foreach(println) 1,2,3.5,1112486027 1,29,3.5,1112484676 1,32,3.5,1112484819 1,47,3.5,1112484

    1

    1答えて

    私は関数型プログラミングに慣れていません。私がしたいことは、文字列のRDDを取り出し、それらを分割し、各単語を別のRDDへのエントリとして割り当てることです。私のRDDにはタブで区切られた文字列が含まれています。 私は分割したい部分文字列を取り、それを別のRDDに全体文字列としてマップします。次に、メインノードに文字列を収集し、最後に別のRDDにマップしたい単語を分割します。ブルートフォースのアプ

    2

    2答えて

    私はプログラミングを初めて覚えました。私はこのような入力データを持っていて、各グループの累積サマリーを取得したい、火花のpythonプログラムの助けが必要です。誰かが私にこのことを案内してくれることを感謝します。 入力データ: 11,1,1,100 11,1,2,150 12,1,1,50 12,2,1,70 12,2,2,20 出力データは次のようになります。 11,1,1,100 11,1,2

    1

    2答えて

    タスクが失敗した場合、永続化されたRDD(StorageLevel.MEMORY_ONLY_SER)をクリアしてから、タスクを最初から開始しようと再計算します。または、キャッシュされたRDDが追加されます。 永続化されたRDDのタスクが失敗した場合、重複したレコードが表示されます。どんな助けもありがとう。

    1

    1答えて

    Apache Sparkのmap-reduce機能を理解するために最善を尽くしています.RDDのフラット化(これが正しい用語であるかどうかわからない)に悩まされています。 私はScalaで以下のRDD構造を持っている:私は、次のタイプのものであると、このRDDを変換したい (1, ("a", ["alice", "bob"])) (2, ("b", ["charlie", "dave"]))

    0

    1答えて

    Apache Sparkのドキュメントに続いて、mapPartitionモジュールを試してみました。次のコードでは、関数内で最初のRDDを見ることが期待されました。myfunc値を出力した後にイテレータを返すだけです。しかし、RDDでcollectを実行すると、それは空です。 from pyspark import SparkConf from pyspark import SparkConte

    1

    1答えて

    私の目的は、csvファイルからデータを読み込み、自分のrddをscala/sparkのデータフレームに変換することです。これは私のコードです:このスタッドで package xxx.DataScience.CompensationStudy import org.apache.spark._ import org.apache.log4j._ import org.apache.spar