sparkr

1熱

1答えて

SparkRを使用したApache Spark 2.1.0のPOSIXctタイプの降格

私はSparkR（Apache Spark 2.1.0）の適用機能に問題があります。 SparkDataFrameで任意の関数を適用すると、POSIXctはEpochから整数ミリ秒として保存されるため、POSIXct型のタイムスタンプは整数に降格されます。この単純化を防ぐ方法はありますか？ここは最小限の例である： IがR data.frameを作成し、スパーク内にロード： localDF <-

0熱

1答えて

インデックスがelasticsearchに存在するか、または "elastic"パッケージを使用せずにsparkRを使用していないかを確認してください

elasticsearchにインデックスが存在するかどうかを調べるために、sparkRのR function index_exists

0熱

1答えて

関数値を含む列をSparkRでデータフレームをSparkに追加

私はSparkRを使用して、Rを含むいくつかのプロジェクトとそのテクノロジスタック内でのスパークを処理しています。私は、検証関数から返されたブール値で新しい列を作成する必要があります。私は長さの異なる2つのデータフレームを比較する必要があるときに問題がある sdf1$result <- sdf1$value == sdf2$value ：私は次のようにスパークデータフレームと一つの式で簡単に

1熱

1答えて

Sparkで2つのDataFrame列の交差をチェックする方法

pysparkまたはsparkrのいずれか（好ましくは両方）を使用すると、どのように2つのDataFrame列の交差を取得できますか？例えば、sparkrに私はDataFramesを次ています newHires <- data.frame(name = c("Thomas", "George", "George", "John"), surname = c("Smith", "

0熱

1答えて

sparklyrでspark_read_csvを使用しているときに "オブジェクトの無効なメソッドcsv"が表示される

hdfsからRのデータを読み込もうとしています。 sparklyrを使用しているときに苦労していることの1つは、エラーメッセージを解読することです...私はJavaプログラマーではないためです。この例で考えてみましょう：をRでこれを行うアワビのデータフレームを作成する - アワビは、機械学習の例に使用したデータセットである load pivotal R package #contains a

0熱

2答えて

時系列の傾向検出にSparkとRを使用

私はRとSparkの両方に新しいですが、ユーザが実行する増減クエリを検出するスケーラブルなRアプリケーションを作成しようとしています。私は、次の形式でデータを含むスパークデータフレームを持っている： +-------+------------------------+-------------------------+ | user | query | query_time |

0熱

1答えて

DataFrameから書き込んだ後にcsvデータを読み込む

例をthis postにして、DataFrameをCSVとしてAWS S3バケットに書き出しました。結果は単一のファイルではなく、多数の.csvファイルを含むフォルダでした。私は今、このフォルダでSparkRのDataFrameとして読み込みに問題があります。以下は私が試したものですが、私が書いた同じDataFrameにはなりません。 write.df(df, 's3a://bucket/df',

0熱

1答えて

SparkRでのキャレットの使用？

おそらくthis questionと多少似ていますが、SparkRデータフレームがキャレットパッケージと互換性があるようには思えません。私は私のモデルを訓練しようとすると、私は次のエラーを取得する： Error in as.data.frame.default(data) : cannot coerce class "structure("SparkDataFrame", packag

0熱

1答えて

Scalaが保存したモデルを読み込むことはできますか？

私はデータアナリストです。私はモデル（例えばランダムフォレスト）を訓練したいと思っています。このモデルはScalaで保存して読み込むことができます。 ScalaとRの両方がマシン学習にMLlibを使用しているので、Scalaは訓練され、SparkRに保存されたモデルをロードできますか？私はそれは互換性がありませんでしたという記事が見つかりました： https://databricks.com/b