rdd

0熱

1答えて

最初に説明が残念です。こんにちは、私はいくつかのデータ（RDDの形で）をデータフレームに変換しようとしていますが、ちょっと複雑です。私はRDDを持っています：各項目はフィーチャーと呼ばれるマトリックス（リストのリスト）とラベルと呼ばれるリストでROW（）です。このRDDを、各行が単一の機能リストであり、ラベルであるスカラーであるDataframeに変換したいと考えています。あなたが見ることが

0熱

2答えて

スカラーのキーに基づくRDDの2つのペアの値を比較する

キーに基づいて2つのペアRDDsの値を比較する方法はありますか。たとえば： RDD1: RDD[(Int, String)] = {(1, "ABC"), (2, "XYZ"), (3, "PQR")} RDD2: RDD[(Int, String)] = {(5, "AAA"), (2, "XYZ"), (3, "LMN")} 私の仕事は、値が異なるの両方rddsに存在するキーの数を取得

1熱

1答えて

どのようにorg.apache.spark.mllib.linalg.SparseVectorをorg.apache.spark.ml.linalg.SparseVectorへ変換するのですか？

どのようにを変換するか、 org.apache.spark.mllib.linalg.SparseVectorからorg.apache.spark.ml.linalg.SparseVector？コードをmllibからml apiに変換しています。 import org.apache.spark.mllib.linalg.{DenseVector, Vector} import org.apac

1熱

1答えて

pysparkでrddでグループを実現するにはどうすればいいですか？

data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a', 8,6), ('l','g','z', 8,3), \ ('a','b','c', 9,8), ('s','q','a', 10,10), ('l','g','z', 20,20), ('o','u','w', 77,77)]

0熱

2答えて

pyspark 1.6.1でrddをデータフレームに変換する方法は？

rddをデータフレームに変換し、データフレームをpyspark 1.6.1でrddに変換する方法の例はありますか？ toDF()は1.6.1で使用できませんか？例えば、私はこのようなRDDがありますすることはできませんあなたが.toDF（）メソッドを使用することはできません何らかの理由場合 data = sc.parallelize([('a','b','c', 1,4), ('o','u','

0熱

2答えて

RDD（スカラ）のネストされたforloop

私は以下の構造を有するRDDを持っているの作成方法： ((ByteArray, Idx), ((srcIdx,srcAdress), (destIdx,destAddress))) このビットコインのblockchainのエッジ（トランザクション）の表現。 (ByteArray, Idx)は識別子として見ることができ、残りはエッジです。私の最終的な目標は、ノードをブロックチェーンのグラフ表現に集約

0熱

1答えて

nullを含むRDD内のすべてのレコードを削除するにはどうすればよいですか？

私はRDDをcsvファイルからロードしました。ただし、このファイルには無効なデータが含まれています。だから、私はこのRDDの連絡先をfirstと出力しようとしました。 java.lang.NumberFormatException：例外がによって引き起こさある空のString 私は1つのレコードが空の文字列を含む場合RDD内のすべてのレコードを削除するために解決策を見つけることを願っています。

0熱

2答えて

スカラマップフィルタリング方法

私はScalaとSparkを初めて使いました。テキストファイルの重複行を削除しようとしています。これは私のプログラムで-4.5、-4.2,2.7 ：各行は3つのような列（ベクトル値）を、含まれてい import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.rdd

1熱

1答えて

値ルックアップはこれが私の全体のサンプルコードでorg.apache.spark.rdd.RDD

のメンバーではありません。私は次の行を実行すると package trouble.something import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object Stack { val conf = new Spark