rdd

    1

    2答えて

    データ型のデータ型があり、このデータセットの一部の列に関数を適用し、LongまたはDoubleまたはIntなどに変換したい新しい列(またはこれらの列のタプル)を同じデータセットに追加します。誰かがこれを行う正しい方法をお勧めしますか? UPDATE: 次は失敗します。 val ds: Dataset[(String, String)] = Seq( ("1.0","1"), ("

    0

    1答えて

    私は以下のようなデータを持っている: +----+----+ |user|item| +----+----+ | a| 1| | a| 2| | a| 3| | b| 1| | b| 5| | b| 4| | b| 7| | c| 10| | c| 2| +----+----+ 私は次のようにのようないくつかの変換後のデータを持っているしたいと思います: (a,(a,1

    0

    1答えて

    に大きなスパークデータフレーム内の行の各サブセットにマップの操作を行うと、私がやりたいことは以下のとおりです。方法:は大きなスパークデータフレームDFは、すべてのレコードが含まれて 。私はこのdfの 'id'カラムで分割されたレコードの各サブセットで並列計算を行いたいと思っています。私は現在の考えることができる方法は次のとおりです。(私は説明するために単純な例を使用します) dicts = [

    0

    1答えて

    spark-submitジョブ(Scalaで書かれた.JAR)の中に、既存のMongoDBにアクセスし、dbで新しいコレクションを作成し、インデックスを追加し、データを書き込むエグゼクティブの1,000人以上に配布されているRDDからコレクションまで。 私はこのすべてを行うことができるライブラリを見つけることができません。今、私はRDDから書き込むためにmongo-spark-connectorを

    0

    1答えて

    Hiveテーブルからデータを読み込むSparkSQLクエリを実行しようとしていて、特定のしきい値を超えると失敗します。マジックナンバーの一種であること500K行の val 500k = spark.sql("""select myid, otherfield, count(*) as cnt from mytable group by otherfield, myid order by cnt

    0

    1答えて

    n個のゼロのペアを含むRDDを初期化したいとします。例えば :n = 3、期待される結果は次のようになります init: RDD[(Long, Long)] = ((0,0), (0,0), (0,0)) IはRDDSの組のn個を初期化する必要があります。それは数千、数十万、さらには何百万にもなる可能性があります。 forループでScalaコードを使用している場合、それをRDDに変換します。そ

    0

    1答えて

    Javaの各要素の型とインデックスを取得する方法を探しています。私は、キーによって削減し、各列のデータ型を見ることができるように例えば、RDD ['0,1,hi,1.0', '2,3,String,String2', '1.0,2.0,3,String'] があるとそれから私は [(0, int),(1, int),(2, String),(3, Double),(0, int) ......

    1

    3答えて

    SparkデータフレームをRDD [行]に変換するので、最終的なスキーマにマップしてHive Orcテーブルに書き込むことができます。私は入力内の任意のスペースを実際のnullに変換したいので、ハイブテーブルは空の文字列の代わりに実際にnullを保存することができます。 入力データフレーム(パイプ区切りの値を持つ単一の列): col1 1|2|3||5|6|7|||...| マイコード: i

    0

    1答えて

    リスト値でJavaPairedRDDでイテレーターを試行しています。各エントリを繰り返し処理したいのですが、常に値リストのすべての要素を繰り返し処理しているようです。たとえば、私はこのようにpairedRDDを持っています。 [(0,[date, date, date]), (1,[str, str, str]), (2,[str, str, str]), (3,[str, int, str]),

    0

    1答えて

    私は次のような構造を持つRDD持っている:[INT、[リスト]] In [109]: rdd_dummies2.take(2) [[0, [False, False, False, False, False, False, False, False, False, False]], [1, [False, False, False, False, False, False, False, Fa