pyspark-sql

1熱

1答えて

私は実際にpysparkには新しく、いくつかのデータ操作をしようとしています。私はたとえば以下のようなデータフレームがあります。このDFで Trxn Cust_ID Group 3370 A 1 8809 C 2 3525 B 3 8260 A 3 6349 B 3 3359 C 3 3701 NULL 3 5572 NULL 2 2580 A 1 を、Trx

1熱

1答えて

pysparkを使用したドリルへの接続の確立

pysparkシェルで接続するドリルを使用して、MapR DBからデータフレームにデータをフェッチしようとしています。 `dataframe_mysql = sqlContext.read.format("jdbc").option("url", "jdbc:drill:zk=localhost:5181/drill/demo_mapr_com-drillbits;schema=dfs;").op

0熱

1答えて

Apache SparkでsqlContextを作成するときのエラー

Apache Sparkを使用していて、Ipythonノートブックで実行しています。通常のデータフレームをSpark DataFrameに変換しようとしています。そのためにはsqlContextが必要です。私はそれを使用するときにエラーが発生します。エラーは言う：私は複数のリソースを見上げたが、この問題を解決することはできませんよき IllegalArgumentException: u"Er

2熱

1答えて

グループ内の最初のNULLでない値を取得する

Spark SQLでは、グループ内で最初の非ヌル（または一致しないテキスト（ 'N/A'ではなく））を取得する方法。以下の例では、ユーザがテレビチャンネルを見ているとき、最初の3つのレコードがチャンネル100で、SIGNAL_STRENGHTはN/Aです。次のレコードがGoodの値を持つので、使用します。私は、Windowsの機能を試してみましたが、私はMAX、MINのようなメソッドを持っている

0熱

2答えて

pysparkデータフレームから変換後にJSON文字列を書式設定する方法

toJSONをでJSONに変換して、各行にJSON文字列を与えました。 [ '{"LeaseType":"Offer to Lease","Status":"Fully Executed","property":"10230104","City":"Edmonton","DealType":"Renewal","Area":"2312","DID":"79cc3959ffc8403f94

3熱

1答えて

Pyspark groupbyグループ内でソート

私はID、オフセット、テキストを含むテーブルを持っています。仮定入力： df.groupby(id).agg(concat_ws("",collect_list(text)) しかし、私はテキスト内の秩序を確保する方法がわからない： id text 1 hello world 2 foo 私が使用している： id offset text 1 1 hello 1 7 world

0熱

1答えて

Pyspark - データフレームからトレーニングセットとテストセットを作成します

私は以下の写真のようなデータフレームを持っています。私はトレーニングとテストを作成したいと思います。データセットは、CustomerIDとInvoiceNoによって並べ替えられます。顧客ごとに、その顧客の最後の2行を除くすべての行をトレーニングセットとし、各顧客の2番目から最後の行をトレーニングセットにしたいと考えています。結果は理想的には1巨大トレーニングセットと1テストセットになります。 P

3熱

2答えて

AWS Glueの内部でSQLを使用するpySparkスクリプト

AWS Glueを使用して、一部のcsvデータをorcに変換したいと考えています。以下を生成し、私が作成したETLジョブPySparkスクリプト： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import Spark