pyspark-sql

    0

    1答えて

    私たちはpyspark 1.6を使用しています。圧縮(gzip、lz4、スナップなど)を使用してテキストを他のファイル形式 (Json、csvなど)に変換しようとしています。しかし、作業を圧縮することができません。 私たちが試したコードブローを見つけてください。私たちのコードの問題を指摘する際に助けてください。 だけ圧縮のいずれも1.6で作業されていないが、そのスパーク2.Xで正常に動作し、質問に

    1

    4答えて

    これは愚かな質問ですが、申し訳ありませんが、私はそれの周りに私の頭を得るように見えることはできません。私はかなりSQLに慣れています。この動作は、RやPandasなど、私が使用するのに慣れているのは変です。 基本的に2つの異なるデータベースに共通のキーuser_idを持つ2つのテーブルがあります。私はすべての列に参加したい SELECT * FROM db1.first_table t1 JOI

    0

    1答えて

    私はPysparkバージョン1.6を使用してPysparkデータフレームで作業しています。このデータフレームを.CSVファイルにエクスポートする前に、ある特定の列でLIKEおよびOR演算子を使用して特定の条件に基づいてデータをフィルタリングする必要があります。これまでのことを話すために、複数の.JSONファイルから初期データフレームを作成しました。このデータフレームはサブセット化されているため、必

    0

    2答えて

    In Pyspark - 表Aのcolumn(listed_1)の列値をの値でwhere condition (B.list_expire_value) > 5 || (B.list_date) < 6に設定する方法。 (B)は、それらが表Bの列であることを示すことです。 spark_df = table_1.join("table_2", on ="uuid").when((table_2['l

    2

    1答えて

    は、ここでのポストを参照してください:私は私が得たただしのpython 3.5 from pyspark.sql.functions import col に「COL」をインポートしたいSpark structured streaming with python colへの未解決の参照を言うエラー。私はpysparkライブラリをインストールしたので、 'col'がpysparkライブラリから削

    1

    2答えて

    私はDatabricksに取り組んでおり、Pythonを使ってSparkでMLlibパッケージを利用したいと思っています。以前Scikitを学んでいたときは、機能のリストとその機能のラベルのリストがありました。私は単にこれをデシジョンツリークラシファイアを使用して適合させ、予測します。 のドキュメントを見て、私はPySparkに似た何かを行う方法でビットが失われています:https://docs.

    0

    1答えて

    emr 5.5.0バージョンのAWS EMRクラスタ10個、Spark 2.1.0 サマータイムをcouchbaseデータベースに書きたいとします。私たちはSpark SQLでPySparkを使用して要約データを生成しています。要約データは、PySpark DataFrameの形式です。 この要約データ(PySpark DataFrame)をcouchbaseデータベースに書きたいとします。 Py

    1

    2答えて

    データフレーム列の最後の文字を取得し、別の列に配置する方法を探しています。 私はこのようになりますスパークデータフレームを持っている: animal ====== cat mouse snake 私はこのような何かしたい: lastchar ======== t e e 今私がどのように見えるUDFでこれを行う

    1

    2答えて

    "好きな"演算子を使用して文字列/式を含む条件でスパークデータフレームをフィルタリングする際のいくつかの記事を読んだが、%sを使用した場合の "ベストプラクティス"条件は以下の通り: input_path = <s3_location_str> my_expr = "Arizona.*hot" # a regex expression dx = sqlContext.read.parquet(

    3

    1答えて

    私はニュース推薦システムをやっているので、読んでいるユーザーやニュースのためのテーブルを作る必要があります。私の生のちょうどこのようなデータ: 001436800277225 ["9161492","9161787","9378531"] 009092130698762 ["9394697"] 010003000431538 ["9394697","9426473","9428530"] 0