rdd

    0

    1答えて

    最初に説明が残念です。 こんにちは、私はいくつかのデータ(RDDの形で)をデータフレームに変換しようとしていますが、ちょっと複雑です。 私はRDDを持っています:各項目はフィーチャーと呼ばれるマトリックス(リストのリスト)とラベルと呼ばれるリストでROW()です。 このRDDを、各行が単一の機能リストであり、ラベルであるスカラーであるDataframeに変換したいと考えています。あなたが見ることが

    0

    2答えて

    キーに基づいて2つのペアRDDsの値を比較する方法はありますか。たとえば : RDD1: RDD[(Int, String)] = {(1, "ABC"), (2, "XYZ"), (3, "PQR")} RDD2: RDD[(Int, String)] = {(5, "AAA"), (2, "XYZ"), (3, "LMN")} 私の仕事は、値が異なるの両方rddsに存在するキーの数を取得

    1

    1答えて

    どのようにを変換するか、 org.apache.spark.mllib.linalg.SparseVectorからorg.apache.spark.ml.linalg.SparseVector? コードをmllibからml apiに変換しています。 import org.apache.spark.mllib.linalg.{DenseVector, Vector} import org.apac

    1

    1答えて

    data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a', 8,6), ('l','g','z', 8,3), \ ('a','b','c', 9,8), ('s','q','a', 10,10), ('l','g','z', 20,20), ('o','u','w', 77,77)]

    0

    2答えて

    rddをデータフレームに変換し、データフレームをpyspark 1.6.1でrddに変換する方法の例はありますか? toDF()は1.6.1で使用できませんか? 例えば、私はこのようなRDDがありますすることはできませんあなたが.toDF()メソッドを使用することはできません何らかの理由場合 data = sc.parallelize([('a','b','c', 1,4), ('o','u','

    0

    2答えて

    私は以下の構造を有するRDDを持っているの作成方法: ((ByteArray, Idx), ((srcIdx,srcAdress), (destIdx,destAddress))) このビットコインのblockchainのエッジ(トランザクション)の表現。 (ByteArray, Idx)は識別子として見ることができ、残りはエッジです。私の最終的な目標は、ノードをブロックチェーンのグラフ表現に集約

    0

    1答えて

    私はRDDをcsvファイルからロードしました。ただし、このファイルには無効なデータが含まれています。だから、私はこのRDDの連絡先をfirstと出力しようとしました。 java.lang.NumberFormatException:例外が によって引き起こさ ある空のString 私は1つのレコードが空の文字列を含む場合RDD内のすべてのレコードを削除するために解決策を見つけることを願っています。

    0

    2答えて

    私はScalaとSparkを初めて使いました。テキストファイルの重複行を削除しようとしています。これは私のプログラムで-4.5、-4.2,2.7 : 各行は3つのような列(ベクトル値)を、含まれてい import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.rdd

    1

    1答えて

    のメンバーではありません。私は次の行を実行すると package trouble.something import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object Stack { val conf = new Spark