rdd

1熱

1答えて

私は多くの列を持つデータフレームをしたと仮定すると、行DATAFRAMEから特殊文字を削除し、いくつかのタイプ文字列他の人がint型を入力し、他の人がマップを入力します。フィールド/列types: stringType|intType|mapType<string,int>|... |--------------------------------------------------------

0熱

3答えて

Spark DataFrameをJavaのPOJOのRDDに変換する方法

私はSparkの新機能です。 DataFrameをPOJOのRDDに変換したい。 Like： JavaRDD<POJOClass> data = df.toJavaRDD(); ここで、dfはDataFrameです。 df.show()が与える次のように +---------+---------+---------+---------+ | A | B | C | D |

0熱

2答えて

は、私は2 RDDのを持っているRDDの交差点

の補数をもたらすために参加：最初の（ユーザID、のMOV ID、評価、タイムスタンプ） data_wo_header: RDD[String] scala> data_wo_header.take(5).foreach(println) 1,2,3.5,1112486027 1,29,3.5,1112484676 1,32,3.5,1112484819 1,47,3.5,1112484

1熱

1答えて

RDDは各部分文字列を別のRDDにマップします

私は関数型プログラミングに慣れていません。私がしたいことは、文字列のRDDを取り出し、それらを分割し、各単語を別のRDDへのエントリとして割り当てることです。私のRDDにはタブで区切られた文字列が含まれています。私は分割したい部分文字列を取り、それを別のRDDに全体文字列としてマップします。次に、メインノードに文字列を収集し、最後に別のRDDにマップしたい単語を分割します。ブルートフォースのアプ

2熱

2答えて

Python Spark RDD APIを使用してグループ単位で累積合計を検索する方法

私はプログラミングを初めて覚えました。私はこのような入力データを持っていて、各グループの累積サマリーを取得したい、火花のpythonプログラムの助けが必要です。誰かが私にこのことを案内してくれることを感謝します。入力データ： 11,1,1,100 11,1,2,150 12,1,1,50 12,2,1,70 12,2,2,20 出力データは次のようになります。 11,1,1,100 11,1,2

1熱

2答えて

スパークノードに保存されているRDDデータの消去

タスクが失敗した場合、永続化されたRDD（StorageLevel.MEMORY_ONLY_SER）をクリアしてから、タスクを最初から開始しようと再計算します。または、キャッシュされたRDDが追加されます。永続化されたRDDのタスクが失敗した場合、重複したレコードが表示されます。どんな助けもありがとう。

1熱

1答えて

タプルの値を平滑化してRDDを変換する

Apache Sparkのmap-reduce機能を理解するために最善を尽くしています.RDDのフラット化（これが正しい用語であるかどうかわからない）に悩まされています。私はScalaで以下のRDD構造を持っている：私は、次のタイプのものであると、このRDDを変換したい (1, ("a", ["alice", "bob"])) (2, ("b", ["charlie", "dave"]))

0熱

1答えて

pysparkでmapPartitionsを使用する方法

Apache Sparkのドキュメントに続いて、mapPartitionモジュールを試してみました。次のコードでは、関数内で最初のRDDを見ることが期待されました。myfunc値を出力した後にイテレータを返すだけです。しかし、RDDでcollectを実行すると、それは空です。 from pyspark import SparkConf from pyspark import SparkConte

1熱

1答えて

Scala：Serializableを使用した製品でパラメータが使用されない

私の目的は、csvファイルからデータを読み込み、自分のrddをscala/sparkのデータフレームに変換することです。これは私のコードです：このスタッドで package xxx.DataScience.CompensationStudy import org.apache.spark._ import org.apache.log4j._ import org.apache.spar