apache-spark

1熱

1答えて

私のプログラムの流れは次のようなものです： 1.寄木細工のファイルからデータフレームに40億行（〜700GB）のデータを読み込みます。使用されるパーティションサイズは2296 2.クリーニングして25億行を除外します。 3.残りの15億行をパイプラインモデルと訓練モデルを使用して変換します。モデルは、ロジスティック回帰モデルを使用して訓練され、0または1を予測し、データの30％が変換されたデータフ

1熱

1答えて

Sparkを使用してcsvを読むときに空白行を文字に置き換える

空の行を含むcsvがあり、読み込まれた後に削除されます。しかし、私はそれらの空白行が必要です。これらの空白行を値で置き換える方法はありますか？ 0、csvファイルを読み込んでいますか？これは私が私のデータを読み込む方法です： val mycsv = sparksession.read .format("com.databricks.spark.csv") .option(

0熱

1答えて

マップにキーが表示されたときの条件付きデータフレームの値の置き換え

スカラースパーク環境に2つのオブジェクトがあります。 1つは、String型の多数の列を持つデータフレームです。 2番目のキーはcolumn_namesをキーとするマップで、各キーの値は置換値を定義する別のMapです。 Map of Mapを繰り返し、column_nameキーをデータフレームキーに一致させ、置換値のマップを使用して値を置き換えます。値が置換値のマップに存在しない場合は、列の元の値

3熱

1答えて

[INT]

私のcsvファイルの各行は次のように構成されています u001, 2013-11, 0, 1, 2, ... , 99 れるU001と2013から11はUIDであり、日付は、の数値0からの数値です。私は、この構造でスパークDATAFRAMEにこのcsvファイルをロードしたい：のdataVectorはアレイ[INT]あり、そしてのdataVector長さはUIDと日付のすべてに対して同じである

12熱

4答えて

クラスタ上でファイルを保存する方法

私はsshを使用してクラスタに接続されていると私は私がテキストファイルに結果を保存したい spark-submit --master yarn myProgram.py 使用してクラスタにプログラムを送信し、私が使用してみました次の行： counts.write.json("hdfs://home/myDir/text_file.txt") counts.write.csv("hdfs://

1熱

2答えて

Spark DataFrameからリストに複数の列名をドロップする方法はありますか？

私は、nの値に基づいて作成された動的リストを持っています。 n=3 drop_lst = ['a'+str(i) for i in range(n)] df.drop(drop_lst) しかし、上記は機能しません。注：私の使用目的には動的リストが必要です。私はちょうどリストなし以下行う場合、それは df.drop('a0','a1','a2') がどのように私はリストとドロップ機

0熱

1答えて

Spark 2でCastClassExceptionが発生する：java.lang.ClassCastException：java.util.ArrayListをorg.apache.hadoop.io.Textにキャストすることができない

ArrayおよびArrayのような複雑なデータ型の列を持つテーブルを扱うときにSpark 2でCastClassExceptionを取得する私が試したアクションは単純なものである：カウント df=spark.sql("select * from <tablename>") df.count が、スパークアプリケーション Exception in thread "main" org.apa

1熱

1答えて

ElasticSearch UpsertまたはIndexは私の場合が正しいですか？

私は、ElasticSearchで同じインデックスを供給する2つの異なるSparkジョブを持っています。あるセットのフィールドを埋めるものと、もう1つは、残りのデータとのインデックスです。私の質問は、私はインデックス（私は答えがいいえ、私は最初の仕事AFAIKからのデータを失うだろうと思う）またはupsertを使用する必要がありますか？ upsert（これは私が今再生しているもの）の場合、FOR