pyspark

7熱

4答えて

ImportError：スパーク作業員にnumpyという名前のモジュールがありません

クライアントモードでpysparkを起動します。 bin/pyspark --master yarn-client --num-executors 60シェルのインポートnumpyは正常に実行されますが、kmeansでは失敗します。エグゼクティブが何とかインストールされていないのは私の気持ちです。私は、労働者にnumpyについて知らせるためにどこでも良い解決策を見つけませんでした。私はPYSPAR

5熱

2答えて

spark.ml StringIndexerはfit（）に 'Unseen label'をスローします

私はおもちゃspark.mlの例を準備しています。 Spark version 1.6.0、Oracle JDK version 1.8.0_65、pyspark、ipythonノートブックの上を実行しています。まず、Spark, ML, StringIndexer: handling unseen labelsとは関係ありません。パイプラインを変換するのではなく、データセットにフィッティングす

7熱

4答えて

は

スパークデータフレームにスパークストリーミングデータを変換する方法をこれまでのところ、スパークは、ストリーミングデータのためのデータフレームを作成していないが、私は異常検出をしていたとき、データ分析のためのデータフレームを使用することがより便利で速いです。私はこの部分をしましたが、ストリーミングデータを使ってリアルタイムの異常検出を試みると、問題が発生しました。私はいくつかの方法を試して、DStr

6熱

1答えて

Spark SQL Row_number（）PartitionBy Sort Desc

私はSpark Using Windowではrow_number()partitionByを作成しましたが、デフォルトの昇順ではなく降順で並べ替えたいと思います。ここに私の作業コードは次のとおりです。 from pyspark import HiveContext from pyspark.sql.types import * from pyspark.sql import Row, func

15熱

1答えて

Apache Spark - UDFの結果を複数のデータフレーム列に割り当てる

私はpysparkを使用しています。大きなcsvファイルをspark-csvでデータフレームにロードしています。前処理ステップとして、さまざまな操作を適用する必要があります列の1つ（json文字列を含む）で使用可能なデータに変換します。これは、X値を返します。それぞれの値は、別々の列に格納する必要があります。この機能はUDFで実装されます。しかし、私はそのUDFから値のリストを返す方法と、個々の

8熱

1答えて

スパーク： "仮想"列でパーティション化されたDataFrameを保存する

古典的なETLジョブを実行するためにPySparkを使用しています（データセットを読み込み、処理して保存します）、 "仮想"列でパーティション化されたファイル/ ; 「バーチャル」とは、ISO 8601でエンコードされた日付を含む文字列の列Timestampを持っており、年/月/日でパーティション化したいということです。実際には、DataFrameにYear、MonthまたはDayのいずれかの列は

7熱

1答えて

Sparkで単一の列を収集するにはどうすればよいですか？

私は1つの列に対してアクションを実行したいと思います。残念ながら、私はその列を変換した後、もはやそれが出たデータフレームの一部ではなく、Columnオブジェクトになりました。したがって、それは収集することはできません。ここでは一例です。 df = sqlContext.createDataFrame([Row(array=[1,2,3])]) df['array'].collect()

6熱

2答えて

Sparkサンプルプログラムが非常に遅く実行されます

私は、単純なグラフの問題で動作するようにSparkを使用しようとしました。私はSparkのソースフォルダーにtransitive_closure.pyというサンプルプログラムを見つけました。transitive_closure.pyは、200以上のエッジと頂点を持たないグラフ内の推移閉包を計算します。しかし、自分のラップトップでは、10分以上実行され、終了しません。私が使用するコマンドラインは：s

8熱

2答えて

どのように火花データフレームをキャッシュし、別のスクリプト

でそれを参照するようにすると、それがデータフレームをキャッシュしてから参照することは可能です（クエリ）には、次のように...私の目標は次のとおりです。？スクリプト1では、スクリプト2では DFデータフレーム（DF）実行スクリプト1とキャッシュを作成することは、標準的なスパークバイナリを使用しては不可能であるDF

11熱

1答えて

PySpark 1.5＆MSSQL jdbc

私はCentOS 6マシンでPython 3.3を使用して、Cloudera YARNのSpark 1.5でPySparkを使用しています。 SQL ServerインスタンスはSQL Server Enterprise 64bitです。 SQL Serverドライバは以下のとおりです。 sqljdbc4.jar;そして私は私の.bashrc export SPARK_CLASSPATH="/var