pyspark

    1

    1答えて

    私はspark-redshiftを使用していて、処理のためにpysparkを使ってredshiftデータを照会しています。 ワークベンチなどを使用してredshiftを実行するとクエリが正常に動作しますが、spark-redshiftはs3にデータをアンロードしてから取得し、実行すると次のエラーが発生します。 py4j.protocol.Py4JJavaError: An error occurr

    1

    1答えて

    を使用してデータフレームを作成する私はPySparkのv1.6.1を使用していると私は別のものを使用してデータフレームを作成したい: 異なるにおける3つの値の構造体を持つフィールドを変換します列 変更に 列名とタイプ の残りの部分をそのタイムスタンプを使用して複数の列を作成し、文字列からdatatime にタイムスタンプを変換します 現在、.map(func)を使用して、そのファンクションを使用し

    0

    1答えて

    を使用して単語をマッピング 私はPySparkと私の旅を始めていますし、私は私はこのようなコードを持っている例: ための一点で立ち往生している:(私はhttps://spark.apache.org/docs/2.1.0/ml-features.htmlからそれを取った) from pyspark.ml.feature import Tokenizer, RegexTokenizer from

    -1

    2答えて

    にパンダのデータフレームのすべての列のデータ型を変換する方法を、私は元のためにこれを達成するための複数の方法を試してみました: inputpd = pd.DataFrame(inputpd.columns、DTYPE = STR) しかし、それはありませんうまくいかない。私はスパークする初心者ですので、この質問をして申し訳ありません。

    -1

    1答えて

    Seabornを使用してデータを視覚化しようとしています。私はpysparkでSQLContextを使ってデータフレームを作成しました。しかし、lmplotを呼び出すと、エラーが発生します。私は何が欠けているのか分かりません。以下は私のコードです(私はジュピターのノートブックを使用しています): import pandas as pd from matplotlib import pyplot

    -3

    1答えて

    以下は、2つのデータフレームを比較し、交差関数を適用するために書いたコードです。 import os from pyspark import SparkContext sc = SparkContext("local", "Simple App") from pyspark.sql import SQLContext, Row sqlContext = SQLContext(sc) fr

    0

    1答えて

    以下のパイプライン化されたRDDをデータフレームに変換しようとしています。 パイプラインRDD - > user_rdd ['new_user1', 'new_user2', 'Onlyknows', 'Icetea', '_coldcoffee_'] 私は、私は次のエラーを取得しています以下のコード schema = StructType([StructField('Username

    0

    1答えて

    私はUbuntuでjupyterを使っています。 だから私は、次の問題を抱えている、これは私のコードです: from pyspark import SparkContext sc = SparkContext.getOrCreate() ut = sc.textFile("hdfs://localhost:54310/hduser/firstnames") rows= ut.map(lamb