pyspark

    7

    4答えて

    クライアントモードでpysparkを起動します。 bin/pyspark --master yarn-client --num-executors 60シェルのインポートnumpyは正常に実行されますが、kmeansでは失敗します。エグゼクティブが何とかインストールされていないのは私の気持ちです。私は、労働者にnumpyについて知らせるためにどこでも良い解決策を見つけませんでした。私はPYSPAR

    5

    2答えて

    私はおもちゃspark.mlの例を準備しています。 Spark version 1.6.0、Oracle JDK version 1.8.0_65、pyspark、ipythonノートブックの上を実行しています。 まず、Spark, ML, StringIndexer: handling unseen labelsとは関係ありません。パイプラインを変換するのではなく、データセットにフィッティングす

    7

    4答えて

    スパークデータフレームにスパークストリーミングデータを変換する方法をこれまでのところ、スパークは、ストリーミングデータのためのデータフレームを作成していないが、私は異常検出をしていたとき、データ分析のためのデータフレームを使用することがより便利で速いです。私はこの部分をしましたが、ストリーミングデータを使ってリアルタイムの異常検出を試みると、問題が発生しました。私はいくつかの方法を試して、DStr

    6

    1答えて

    私はSpark Using Windowではrow_number()partitionByを作成しましたが、デフォルトの昇順ではなく降順で並べ替えたいと思います。ここに私の作業コードは次のとおりです。 from pyspark import HiveContext from pyspark.sql.types import * from pyspark.sql import Row, func

    15

    1答えて

    私はpysparkを使用しています。大きなcsvファイルをspark-csvでデータフレームにロードしています。前処理ステップとして、さまざまな操作を適用する必要があります列の1つ(json文字列を含む)で使用可能なデータに変換します。これは、X値を返します。それぞれの値は、別々の列に格納する必要があります。 この機能はUDFで実装されます。しかし、私はそのUDFから値のリストを返す方法と、個々の

    8

    1答えて

    古典的なETLジョブを実行するためにPySparkを使用しています(データセットを読み込み、処理して保存します)、 "仮想"列でパーティション化されたファイル/ ; 「バーチャル」とは、ISO 8601でエンコードされた日付を含む文字列の列Timestampを持っており、年/月/日でパーティション化したいということです。実際には、DataFrameにYear、MonthまたはDayのいずれかの列は

    7

    1答えて

    私は1つの列に対してアクションを実行したいと思います。 残念ながら、私はその列を変換した後、もはやそれが出たデータフレームの一部ではなく、Columnオブジェクトになりました。したがって、それは収集することはできません。ここで は一例です。 df = sqlContext.createDataFrame([Row(array=[1,2,3])]) df['array'].collect()

    6

    2答えて

    私は、単純なグラフの問題で動作するようにSparkを使用しようとしました。私はSparkのソースフォルダーにtransitive_closure.pyというサンプルプログラムを見つけました。transitive_closure.pyは、200以上のエッジと頂点を持たないグラフ内の推移閉包を計算します。しかし、自分のラップトップでは、10分以上実行され、終了しません。私が使用するコマンドラインは:s

    8

    2答えて

    でそれを参照するようにすると、それがデータフレームをキャッシュしてから参照することは可能です(クエリ)には、次のように...私の目標は次のとおりです。? スクリプト1では、スクリプト2では DFデータフレーム(DF) 実行スクリプト1とキャッシュを作成することは、標準的なスパークバイナリを使用しては不可能であるDF

    11

    1答えて

    私はCentOS 6マシンでPython 3.3を使用して、Cloudera YARNのSpark 1.5でPySparkを使用しています。 SQL ServerインスタンスはSQL Server Enterprise 64bitです。 SQL Serverドライバは以下のとおりです。 sqljdbc4.jar;そして私は私の.bashrc export SPARK_CLASSPATH="/var