sparkr

7熱

1答えて

現在、sparkRバージョン1.5.1を使用していくつかの関数を実装しようとしています。 DataFramesでapply関数を使用した古い（バージョン1.3）の例を見てきましたが、これはもはや直接利用できないようです。例：私はエラーを取得するDATAFRAME xDF_S$result = sapply(xDF_S$number, ppois, q=10) に同様のロジックを使用する場合は今

10熱

1答えて

SparkR JVMを使用してScala jarファイルからメソッドを呼び出す

私は、Scala jarファイルにDataFramesをパッケージ化し、Rでアクセスできるようにしたいと考えました。最終目標は、特定の頻繁に使用されるデータベーステーブルにアクセスする方法を作成することでしたPython、R、およびScalaでそれぞれ別のライブラリを書くことなくこれを行うには、Scalaでjarファイルを作成し、SparkSQLライブラリを使用してデータベースにクエリを行い、必

1熱

1答えて

スパークなし事前定義されたスキーマは

私は、このイメージが使用される。特にR.含むhttps://github.com/gettyimages/docker-spark基づくローカルスパークテストクラスタが見つかりません：sparkRこの例外が発生すると、寄木細工のファイルを読み込もうとhttps://hub.docker.com/r/possibly/spark/ 。寄木細工のファイルを読むことは、地元のスパークのインストールで問題

5熱

2答えて

SparkR 1.5のRStudioのhdfsから大きなファイル（純粋なテキスト、xml、json、csv）を読み込むオプション

私はSparkを初めて使用しています。以下のオプション以外にも、 RStudioからhdfsをSparkRを使用して、または私が正しく使用するかどうかデータは、任意の種類（純粋なテキスト、CSV、json、xml、またはリレーショナル表を含むデータベース）および任意のサイズ（1kb〜数gb）のいずれでもかまいません。私は、textFile（sc、path）はこれ以上使用すべきではないことを知って

0熱

1答えて

がSparkR

に2つの列を組み合わせSparkRに2つの列を結合するための簡単な方法は何ですか？私はこのようなロジックでsalary列を組み合わせて取得したいと思い salary_from salary_to position 1500 null a null 1300 b 800 1000 c ：スパークDF以下のことを検討してください。 salary_fromとsalary_to

1熱

1答えて

はどのように私はR

にデータフレームにgroupedDataを変換することができは、私は私はそれがたAccountIdに基づいて、その後、私はCloseDateに違いが含まれています別の列の命名date_diffを追加するグループにしたいデータフレーム AccountId,CloseDate 1,2015-05-07 2,2015-05-09 3,2015-05-01 4,2015-05-07 1,201

1熱

1答えて

HiveContextを使用してSparkの最小値を含む行以外の行を選択します。

私は、タイムスタンプとマシンIDを含むSpark Data Frameを持っています。私は各グループから最低のタイムスタンプ値を削除したいと思います。私は、次のコードを試みた： sqlC <- sparkRHive.init(sc) ts_df2<- sql(sqlC,"SELECT ts,Machine FROM sdf2 EXCEPT SELECT MIN(ts),Machine FROM

3熱

1答えて

は、列の値を四捨五入 - SparkR

を私はデータフレームの列のいずれかで、以下の値 231204.66666666666 376.0 346593.5 802.0 346594.5 801.0 346595.5 800.0 null 0.0 を持っている私はこのコラムでは、絶対値を求めています。 Sp

5熱

1答えて

createDataFrameのSparkRボトルネック？

私はSpark、SparkR、そして一般にすべてのHDFS関連の技術に慣れています。 Sys.setenv(SPARK_HOME="/private/tmp/spark-1.5.0-bin-hadoop2.6") .libPaths("/private/tmp/spark-1.5.0-bin-hadoop2.6/R/lib") require('SparkR') require('data.