apache-spark

0熱

3答えて

テキストを含むスパークデータフレームの列があります。特殊文字'@'で始まるすべての単語を抽出し、そのテキスト列の各行からregexp_extractを使用しています。テキストに'@'で始まる複数の単語が含まれている場合は、最初のテキストのみが返されます。私はスパークのパターンに一致する複数の単語を抽出したいと考えています。 data_frame.withColumn("Names", rege

0熱

1答えて

データソース：com.databricks.spark.xmlの検索に失敗しました。パッケージはhttp://spark.apache.org/third-party-projects.html

でインストールされています。スパークがインストールされていないintellijプロジェクトを使用してSparkをロードしています。 val spark = SparkSession.builder().config(sparkConf).getOrCreate() はI`veは sparkConf.set("spark.driver.extraClassPath", "C:/.../spark

1熱

1答えて

Ax = bソルバーの座標行列Apache Spark

Apache sparkを使用してAx = b問題を解決するにはどうしたらいいですか？私の入力座標行列である： import numpy as np import scipy from scipy import sparse row = np.array([0, 3, 1, 0]) col = np.array([0, 3, 1, 2]) data = np.array([4, 5, 7

0熱

1答えて

PySparkのパーティション内のデータフレームに参加します

私は大きな（数百万〜数千万）の行数を持つ2つのデータフレームを持っています。私はそれらの間の結合をしたいと思います。私が現在使用しているBIシステムでは、まず特定のキーでパーティションを作成し、そのキーで結合を実行することで、これを高速化します。これはスパークでフォローする必要があるパターンですか、それとも問題ではありませんか？一見すると、あらかじめパーティションが正しく分割されていないため、

2熱

3答えて

スパーク：データセットシリアル化

Iは、データセットの場合のクラスとなっている各レコードを有し、そしてそのシリアル化が使用されているので、以下に示すように、私はそのデータセットを永続化する場合： myDS.persist(StorageLevel.MERORY_ONLY_SER) ないスパーク用のJava/KYROシリアライゼーションをしますデータセットをシリアル化しますか？またはデータフレームのように、Sparkにはデータセ

1熱

1答えて

Java Spark：com.mongodb.spark.config.writeconfig issue

Javaのsparkコネクタ経由でMongoDBに接続しようとしていますが、jarファイルを送信するときにエラー "com.mongodb.spark.config.writeconfig"が表示されます。スパークシェルで瓶を運ぶ。ここでは、エラーのスクリーンショット：この問題を解決するために手伝ってください。私もこれを試しましたが、成功はありません。 $/binに/ sparkR --conf

0熱

1答えて

Spark SQLのスローエラー「java.lang.UnsupportedOperationException：Unknown field type：void」

カラム値defaultをNULLとしてテーブルを作成しているときにSpark（1.6）SQLのエラーが下になりました。例：select column_aとしてテーブルテストを作成し、test_tempからcolumn_bとしてNULLを作成します。同じことがHiveで動作し、データ型が "void"の列が作成されます。例外を避けるためにNULLの代わりに空の文字列を使用し、文字列データ型を取得

0熱

2答えて

Apache Sparkのデータフレームのメジアン値を見つけるには

私はApacheテーブルにDBテーブルをインポートしたところで問題を解決しています。私はそれをDataFrameに変換しました。次に、RegisterTempTableを実行して、ハイブクエリを使用できるようにしました。私はAmountと呼ばれるフィールドの中央値を見つけることができませんよしかし sqlContext.sql("select avg(Amount) from Table100