apache-spark

    0

    3答えて

    テキストを含むスパークデータフレームの列があります。 特殊文字'@'で始まるすべての単語を抽出し、そのテキスト列の各行からregexp_extractを使用しています。テキストに'@'で始まる複数の単語が含まれている場合は、最初のテキストのみが返されます。 私はスパークのパターンに一致する複数の単語を抽出したいと考えています。 data_frame.withColumn("Names", rege

    0

    1答えて

    でインストールされています。スパークがインストールされていないintellijプロジェクトを使用してSparkをロードしています。 val spark = SparkSession.builder().config(sparkConf).getOrCreate() はI`veは sparkConf.set("spark.driver.extraClassPath", "C:/.../spark

    1

    1答えて

    Apache sparkを使用してAx = b問題を解決するにはどうしたらいいですか?私の入力座標行列である: import numpy as np import scipy from scipy import sparse row = np.array([0, 3, 1, 0]) col = np.array([0, 3, 1, 2]) data = np.array([4, 5, 7

    0

    1答えて

    私は大きな(数百万〜数千万)の行数を持つ2つのデータフレームを持っています。私はそれらの間の結合をしたいと思います。 私が現在使用しているBIシステムでは、まず特定のキーでパーティションを作成し、そのキーで結合を実行することで、これを高速化します。 これはスパークでフォローする必要があるパターンですか、それとも問題ではありませんか?一見すると、あらかじめパーティションが正しく分割されていないため、

    2

    3答えて

    Iは、データセットの場合のクラスとなっている各レコードを有し、そしてそのシリアル化が使用されているので、以下に示すように、私はそのデータセットを永続化する場合: myDS.persist(StorageLevel.MERORY_ONLY_SER) ないスパーク用のJava/KYROシリアライゼーションをしますデータセットをシリアル化しますか?またはデータフレームのように、Sparkにはデータセ

    1

    1答えて

    Javaのsparkコネクタ経由でMongoDBに接続しようとしていますが、jarファイルを送信するときにエラー "com.mongodb.spark.config.writeconfig"が表示されます。スパークシェルで瓶を運ぶ。ここでは、エラーのスクリーンショット: この問題を解決するために手伝ってください。私もこれを試しましたが、成功はありません。 $/binに/ sparkR --conf

    0

    1答えて

    カラム値defaultをNULLとしてテーブルを作成しているときにSpark(1.6)SQLのエラーが下になりました。例:select column_aとしてテーブルテストを作成し、test_tempからcolumn_bとしてNULLを作成します。 同じことがHiveで動作し、データ型が "void"の列が作成されます。 例外を避けるためにNULLの代わりに空の文字列を使用し、文字列データ型を取得

    0

    2答えて

    私はApacheテーブルにDBテーブルをインポートしたところで問題を解決しています。 私はそれをDataFrameに変換しました。次に、RegisterTempTableを実行して、ハイブクエリを使用できるようにしました。 私はAmountと呼ばれるフィールドの中央値を見つけることができませんよしかし sqlContext.sql("select avg(Amount) from Table100