apache-spark

    1

    1答えて

    私のプログラムの流れは次のようなものです: 1.寄木細工のファイルからデータフレームに40億行(〜700GB)のデータを読み込みます。使用されるパーティションサイズは2296 2.クリーニングして25億行を除外します。 3.残りの15億行をパイプラインモデルと訓練モデルを使用して変換します。モデルは、ロジスティック回帰モデルを使用して訓練され、0または1を予測し、データの30%が変換されたデータフ

    1

    1答えて

    空の行を含むcsvがあり、読み込まれた後に削除されます。しかし、私はそれらの空白行が必要です。これらの空白行を値で置き換える方法はありますか? 0、csvファイルを読み込んでいますか? これは私が私のデータを読み込む方法です: val mycsv = sparksession.read .format("com.databricks.spark.csv") .option(

    0

    1答えて

    スカラースパーク環境に2つのオブジェクトがあります。 1つは、String型の多数の列を持つデータフレームです。 2番目のキーはcolumn_namesをキーとするマップで、各キーの値は置換値を定義する別のMapです。 Map of Mapを繰り返し、column_nameキーをデータフレームキーに一致させ、置換値のマップを使用して値を置き換えます。値が置換値のマップに存在しない場合は、列の元の値

    3

    1答えて

    私のcsvファイルの各行は次のように構成されています u001, 2013-11, 0, 1, 2, ... , 99 れるU001と2013から11はUIDであり、日付は、の数値0からの数値です。私は、この構造でスパークDATAFRAMEにこのcsvファイルをロードしたい:のdataVectorはアレイ[INT]あり、そしてのdataVector長さはUIDと日付のすべてに対して同じである

    12

    4答えて

    私はsshを使用してクラスタに接続されていると私は私がテキストファイルに結果を保存したい spark-submit --master yarn myProgram.py 使用してクラスタにプログラムを送信し、私が使用してみました次の行: counts.write.json("hdfs://home/myDir/text_file.txt") counts.write.csv("hdfs://

    1

    2答えて

    私は、nの値に基づいて作成された動的リストを持っています。 n=3 drop_lst = ['a'+str(i) for i in range(n)] df.drop(drop_lst) しかし、上記は機能しません。 注:私の使用目的には動的リストが必要です。 私はちょうどリストなし以下行う場合、それは df.drop('a0','a1','a2') がどのように私はリストとドロップ機

    0

    1答えて

    ArrayおよびArrayのような複雑なデータ型の列を持つテーブルを扱うときにSpark 2でCastClassExceptionを取得する私が試した アクションは単純なものである:カウント df=spark.sql("select * from <tablename>") df.count が、スパークアプリケーション Exception in thread "main" org.apa

    1

    1答えて

    私は、ElasticSearchで同じインデックスを供給する2つの異なるSparkジョブを持っています。あるセットのフィールドを埋めるものと、もう1つは、残りのデータとのインデックスです。 私の質問は、私はインデックス(私は答えがいいえ、私は最初の仕事AFAIKからのデータを失うだろうと思う)またはupsertを使用する必要がありますか? upsert(これは私が今再生しているもの)の場合、FOR