pyspark

6熱

1答えて

DataFrameを持つScala段落を共有して、Pythonで使用することはできますか？ Scalaの段落： x.printSchema z.put("xtable", x) Pythonの段落： %pyspark import numpy as np import pandas as pd import matplotlib.pyplot as plt import seab

5熱

1答えて

私は今</p> <pre><code>sc = SparkContext() sqlc = SQLContext(sc) users_df = sqlc.read.json('users.json') </code></pre> <p>としてJSONファイルから<em>pyspark</em>を通じて構築スパークデータフレームを持ってPyspark DATAFRAMEで選択された行から

を特定のフィールドを取得、私はこれがあるchosen_userデータを、アクセスしたいです_idフィールド。私はすることができます print users_df[users_df._id == chosen_user].show() これは私にユーザーの完全な行を与えます。しかし、行の中に特定のフィールドを1つだけ望み、ユーザーの性別をどのように取得すればよいとしますか？

8熱

5答えて

Pyspark：HDFSパス上のファイル/ディレクトリのリストを取得

タイトルのとおり。私はtextFileを認識していますが、名前が示唆するように、テキストファイルでのみ動作します。 HDFS（またはローカルパス）上のパス内のファイル/ディレクトリにアクセスする必要があります。あなたは、ディレクトリ内すべてファイルで読みたい場合は、私はpysparkに助け

7熱

4答えて

は、私はpysparkプログラムを起動していpyspark

をスタンドアロンのジャーを追加 from pyspark import SparkContext, SparkConf SparkConf().setAppName("Example").setMaster("local[2]") sc = SparkContext(conf=conf) はどのようなDatabricksのcsvジャーなどのjar依存関係を追加するには？コマンドラインを使

5熱

1答えて

スパークはRDDをどのように分割するかを決定しますか？

は、私は、このようなRDDを（私はPysparkを使用しています）を作成したとします list_rdd = sc.parallelize(xrange(0, 20, 2), 6) その後、私はglom()メソッドを持つパーティションの要素を印刷し、スパークを分割する方法を決定しましたどのように [[0], [2, 4], [6, 8], [10], [12, 14], [16, 18]]

5熱

1答えて

pysparkでJava関数をラップする

私はPythonから呼び出せるユーザ定義集約関数を作成しようとしています。私はthis質問への答えに従おうとしました。は、私は基本的に（hereから取られた）は、次の実装： package com.blu.bla; import java.util.ArrayList; import java.util.List; import org.apache.spark.sql.expressio

7熱

2答えて

パーティションバイナリを使用したパーティション分割データ

私はpartitionBy関数が私のデータを分割することを理解します。 rdd.partitionBy(100)を使用すると、キーでデータを100個に分割します。類似したキーに関連付けられたデータがまとめてグループ化されます私の理解は正しいですか？利用可能なコア数に等しいパーティション数を使用することをお勧めしますか？処理がより効率的になりますか？私のデータがキー値形式でない場合はどうなりま

8熱

2答えて

PySparkでは、変換の中からlog4jにログするにはどうすればいいですか

ログレベルとフォーマットが尊重された変換時に、エグゼキュータ内の標準ロガーにログします。残念ながら、メソッド内でlog4jロガーオブジェクトにアクセスすることはできません。これは、シリアル化されていないためです。また、スパークコンテキストは変換内で使用できません。私は触れるつもりのオブジェクトのすべての変換の外にログオンできますが、それは実際にデバッグやコード実行の監視には役立ちません。 def

10熱

1答えて

Pyspark内でScalaクラスを使用する方法

PysparkにScalaクラスを使用する方法がある場合はしばらく検索していますが、この件に関するドキュメントもガイドも見つかりませんでした。 Pysparkでこのクラスを使用するすべての可能な方法はあり class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) { def exe(): DataFr

8熱

1答えて

1.6データフレーム

私はスパークデータフレームに日付でグループにしようとすると、グループごとに1列の一意の値カウントてるスパーク上の他のフィールドで、各グループの異なる要素を取得します： test.json {"name":"Yin", "address":1111111, "date":20151122045510} {"name":"Yin", "address":1111111, "date":201511