pyspark-sql

    1

    1答えて

    私は、PythonでSQLコンテキスト、すなわちpysparkを使用して、csvのデータフレームをpysparkデータフレームに変換する(df操作(前処理、列名の変更、新しい列の作成、それらを同じデータフレームに追加するなど)。私は単体テストケースを作成したいと思っています。私は、データフレームに単体のテストケースを書くことは考えていません。誰かがpysparkのデータフレームにユニットテストケー

    2

    2答えて

    2 RDDSに2列の条件に基づいて、2つのcorrespoding列の合計を計算する - +-----------------+ |mid|uid|frequency| +-----------------+ | m1| u1| 1| | m1| u2| 1| | m2| u1| 2| +-----------------+ RDD2: - +------------

    2

    1答えて

    Sparkプログラミングの初心者で、入力に値のセットが表示されたときに値を割り当てるシナリオがあります。以下は私の仕事を達成するために使用する伝統的なSQLコードです。スパークで同じことをする必要があります。 SQLコード: SELECT CASE WHEN c.Number IN ('1121231', '31242323') THEN 1 ELSE 2 END AS Test FROM I

    0

    1答えて

    Spark APIを初めて使用しています。私はストリングで平日(整数)として別の列を追加するcol_date(datetimeのスタンプ、例えば '13AUG15:09:40:15')というカラムから平日の数字を抽出しようとしています。私はうまくやることができません。

    0

    2答えて

    スパーク・テーブルを照会して、A以外の文字を含む 'ref' T、G、CまたはNのいずれかを含むことができます。 有効な結果には、これらの文字のみを含める必要があり、任意の長さまたはこれらの文字の組み合わせを含めることができます。例えば : 有効= AA、等ATTTGGGGCCCC、C、G、TTG、N、 無効= P、NULL 次のクエリは、単一の列を返しています。ヌクレオチドのみ: SELECT

    2

    1答えて

    問題は私がです。実際にはに解決しようとすると、PySparkデータフレームの最初/最後のN行を取り出し、結果をデータフレームにします。 head()行のリストを返しますので、私はこのエラーを取得し、しかし my_df.head(20).toPandas() :具体的には、私はこのような何かを行うことができるようにしたい AttributeError: 'list' object has no

    3

    3答えて

    私はDate,GroupおよびPriceという列を持つSparkデータフレームを持っています。 私は、その データフレームのPrice列のためにpercentile(0.6)をPythonで派生させようとしています。また、出力を新しい列として追加する必要があります。 私は以下のコードを試みた: perudf = udf(lambda x: x.quantile(.6)) df1 = df.wit

    3

    1答えて

    をドロップすることができませんでしこんにちは私は、スパークのデータフレームを作成している、と私は重複を削除しようとしています: df.drop_duplicates(subset='id') 私は次のエラーを取得する: Py4JError: An error occurred while calling z:org.apache.spark.api.python.PythonUtils.toS

    2

    1答えて

    私はpyspark(ML lib)のLogisticRegressionモデルを訓練しており、予測の結果はDataFrame(predictionsと呼ばれます)です。 prunedPredictions = predictions.select(predictions["prediction"], predictions["probability"], predictions["label"])

    2

    3答えて

    pysparkのpostgres sqlデータベースから読み込む必要があります。 here、hereなど多くの場所でこれが以前に尋ねられたことは知っていますが、そこの解決方法はローカルの実行ディレクトリにjarを使用するか、手動ですべての作業者にコピーします。 私はpostgresql-9.4.1208 jarをダウンロードして、/ tmp/jarsに配置しました。私はその後、--jarsでpys