sparkr

    0

    1答えて

    Rのlapply()メソッドをspark.lapply()に変換する際に問題が発生します。 Error in writeType(con, serdeType) : Unsupported type for serialization nonstandardGenericFunction :だから私のRコードはこの > lst <- lapply(1:(length(SampleDa

    1

    1答えて

    SparkRでHDFSとの間で任意のファイルを読み書きする方法を理解しようとしています。セットアップ は次のとおりです。 args <- commandArgs(trailingOnly = T) MASTER <- args[1] SPARK_HOME <- args[2] INPATH <- 'hdfs/path/to/read/or/load/from' OUTPATH <- 'hd

    2

    1答えて

    S3バケットの上で動作するAWS上にEMRクラスター(スポットインスタンスを含む)をホストします。データはこのバケットにORC形式で格納されます。しかし、同じデータを読んで、何らかの種類のサンドボックス環境と同様にRを使用したいと考えています。 パッケージaws.s3(cloudyr)が正常に動作しています。私は問題なくcsvファイルを読むことができますが、orcファイルを読み取り可能なものに変換

    1

    1答えて

    私はRで "sparklyr"と "SparkR"を使ってスパークをベンチマーキングしています。私は異なるTestdataで異なる機能をテストします。 2つの特定のケースでは、1つの列内のゼロの数と1つの列内のNAの数をカウントすると、データがどれほど大きくても結果は1秒未満です。他のすべての計算は、データのサイズに合わせてスケーリングされます。 私はSparkがそこで何かを計算するとは思っていま

    1

    1答えて

    sparkRでは、出力を多くの部分ファイルではなく1つのファイルに書き出しています。あなたは、以下に示すようにwrite.dfにCOALESCEを使用する方法をアドバイスしてくださいでした: write.df(user_counts, path = '/aaa/bbb/cccc/', source = "csv", mode = "append")

    1

    1答えて

    私は、 "id"、 "timestamp"、 "action"、 "value"、 "location"という列のテーブルを含むCSV形式のファイルを持っています。 は、私は、テーブルの各列に関数を適用すると、次のように私はすでにRのコードを書いた: user <- read.csv(file_path,sep = ";") num <- nrow(user) curLocation <- "

    3

    1答えて

    スパークセッションにどのようなスパークパッケージが追加されたのかを列挙できますか? SparkContextを介して、またはどこか他の場所これが利用可能であり、これはスパークパッケージのリストであると仮定すると、 var packages: String = null : クラスorg.apache.spark.deploySparkSubmitArgumentsは、パッケージの変数を持ってい

    2

    3答えて

    sparkRを使用しようとすると、この問題を解決するのが苦労しています。 sparkR.session(master = "local[*]", sparkConfig = list(spark.driver.memory = "1g")) Error in handleErrors(returnStatus, conn) : java.lang.IllegalArgumentExce

    1

    1答えて

    スパーク2.1を使用してsparkRを使用してS3バケットに格納された寄木細工ファイルにアクセスしようとしています。 私はこのようにawsの秘密を設定しようとしました。 Sys.setenv(AWS_ACCESS_KEY_ID="XXXX") Sys.setenv(AWS_SECRET_ACCESS_KEY="XXXX") しかし、それはエラーを返す: Error: Error in loa

    0

    1答えて

    SparkRを使用して大きなデータフレームを読んでいます。私は月に印刷しようとする場合、しかし、 head(select(df, df$booking_date)) booking_date 1 29-JUL-16 2 29-JUL-16 3 06-JUL-16 4 21-JUL-16 5 28-JUL-16 6 28-JUL-16 :私は、文字形式で日付を含む列の月を使