sparkr

0熱

1答えて

Rのlapply（）メソッドをspark.lapply（）に変換する際に問題が発生します。 Error in writeType(con, serdeType) : Unsupported type for serialization nonstandardGenericFunction ：だから私のRコードはこの > lst <- lapply(1:(length(SampleDa

1熱

1答えて

Sparkr HDFSでの読み取り/書き込み

SparkRでHDFSとの間で任意のファイルを読み書きする方法を理解しようとしています。セットアップは次のとおりです。 args <- commandArgs(trailingOnly = T) MASTER <- args[1] SPARK_HOME <- args[2] INPATH <- 'hdfs/path/to/read/or/load/from' OUTPATH <- 'hd

2熱

1答えて

R S3からORCファイルを読み取る

S3バケットの上で動作するAWS上にEMRクラスター（スポットインスタンスを含む）をホストします。データはこのバケットにORC形式で格納されます。しかし、同じデータを読んで、何らかの種類のサンドボックス環境と同様にRを使用したいと考えています。パッケージaws.s3（cloudyr）が正常に動作しています。私は問題なくcsvファイルを読むことができますが、orcファイルを読み取り可能なものに変換

1熱

1答えて

Spark DataFrame（RDD）のメタデータ

私はRで "sparklyr"と "SparkR"を使ってスパークをベンチマーキングしています。私は異なるTestdataで異なる機能をテストします。 2つの特定のケースでは、1つの列内のゼロの数と1つの列内のNAの数をカウントすると、データがどれほど大きくても結果は1秒未満です。他のすべての計算は、データのサイズに合わせてスケーリングされます。私はSparkがそこで何かを計算するとは思っていま

1熱

1答えて

sparkR write.dfを1つのファイルに統合する

sparkRでは、出力を多くの部分ファイルではなく1つのファイルに書き出しています。あなたは、以下に示すようにwrite.dfにCOALESCEを使用する方法をアドバイスしてくださいでした： write.df(user_counts, path = '/aaa/bbb/cccc/', source = "csv", mode = "append")

1熱

1答えて

SparkRの各行に関数を適用する方法は？

私は、 "id"、 "timestamp"、 "action"、 "value"、 "location"という列のテーブルを含むCSV形式のファイルを持っています。は、私は、テーブルの各列に関数を適用すると、次のように私はすでにRのコードを書いた： user <- read.csv(file_path,sep = ";") num <- nrow(user) curLocation <- "

3熱

1答えて

spark-packagesをsparkコンテキストに追加する方法を教えてください。

スパークセッションにどのようなスパークパッケージが追加されたのかを列挙できますか？ SparkContextを介して、またはどこか他の場所これが利用可能であり、これはスパークパッケージのリストであると仮定すると、 var packages: String = null ：クラスorg.apache.spark.deploySparkSubmitArgumentsは、パッケージの変数を持ってい

2熱

3答えて

sparkR： 'org.apache.spark.sql.hive.HiveSessionState'のインスタンス化中にエラーが発生しました：

sparkRを使用しようとすると、この問題を解決するのが苦労しています。 sparkR.session(master = "local[*]", sparkConfig = list(spark.driver.memory = "1g")) Error in handleErrors(returnStatus, conn) : java.lang.IllegalArgumentExce

1熱

1答えて

SparkRでfs.s3.awsAccessKeyIdとfs.s3.awsSecretAccessKeyを設定する方法は？

スパーク2.1を使用してsparkRを使用してS3バケットに格納された寄木細工ファイルにアクセスしようとしています。私はこのようにawsの秘密を設定しようとしました。 Sys.setenv(AWS_ACCESS_KEY_ID="XXXX") Sys.setenv(AWS_SECRET_ACCESS_KEY="XXXX") しかし、それはエラーを返す： Error: Error in loa

0熱

1答えて

文字列を日付に変換するSparkR

SparkRを使用して大きなデータフレームを読んでいます。私は月に印刷しようとする場合、しかし、 head(select(df, df$booking_date)) booking_date 1 29-JUL-16 2 29-JUL-16 3 06-JUL-16 4 21-JUL-16 5 28-JUL-16 6 28-JUL-16 ：私は、文字形式で日付を含む列の月を使