sparkr

    7

    1答えて

    現在、sparkRバージョン1.5.1を使用していくつかの関数を実装しようとしています。 DataFramesでapply関数を使用した古い(バージョン1.3)の例を見てきましたが、これはもはや直接利用できないようです。例:私はエラーを取得するDATAFRAME xDF_S$result = sapply(xDF_S$number, ppois, q=10) に同様のロジックを使用する場合は今

    10

    1答えて

    私は、Scala jarファイルにDataFramesをパッケージ化し、Rでアクセスできるようにしたいと考えました。最終目標は、特定の頻繁に使用されるデータベーステーブルにアクセスする方法を作成することでしたPython、R、およびScalaでそれぞれ別のライブラリを書くことなく これを行うには、Scalaでjarファイルを作成し、SparkSQLライブラリを使用してデータベースにクエリを行い、必

    1

    1答えて

    私は、このイメージが使用される。特にR.含むhttps://github.com/gettyimages/docker-spark基づくローカルスパークテストクラスタが見つかりません:sparkRこの例外が発生すると、寄木細工のファイルを読み込もうとhttps://hub.docker.com/r/possibly/spark/ 。寄木細工のファイルを読むことは、地元のスパークのインストールで問題

    5

    2答えて

    私はSparkを初めて使用しています。以下のオプション以外にも、 RStudioからhdfsをSparkRを使用して、または私が正しく使用するかどうかデータは、任意の種類(純粋なテキスト、CSV、json、xml、またはリレーショナル表を含むデータベース)および任意のサイズ(1kb〜数gb)のいずれでもかまいません。 私は、textFile(sc、path)はこれ以上使用すべきではないことを知って

    0

    1答えて

    に2つの列を組み合わせSparkRに2つの列を結合するための簡単な方法は何ですか?私はこのようなロジックでsalary列を組み合わせて取得したいと思い salary_from salary_to position 1500 null a null 1300 b 800 1000 c :スパークDF以下のことを検討してください。 salary_fromとsalary_to

    1

    1答えて

    にデータフレームにgroupedDataを変換することができ は、私は私はそれがたAccountIdに基づいて、その後、私はCloseDateに違いが含まれています別の列の命名date_diffを追加するグループにしたいデータフレーム AccountId,CloseDate 1,2015-05-07 2,2015-05-09 3,2015-05-01 4,2015-05-07 1,201

    1

    1答えて

    私は、タイムスタンプとマシンIDを含むSpark Data Frameを持っています。私は各グループから最低のタイムスタンプ値を削除したいと思います。私は、次のコードを試みた: sqlC <- sparkRHive.init(sc) ts_df2<- sql(sqlC,"SELECT ts,Machine FROM sdf2 EXCEPT SELECT MIN(ts),Machine FROM

    3

    1答えて

    を私はデータフレームの列のいずれかで、以下の値 231204.66666666666 376.0 346593.5 802.0 346594.5 801.0 346595.5 800.0 null 0.0 を持っている私はこのコラムでは、絶対値を求めています。 Sp

    5

    1答えて

    私はSpark、SparkR、そして一般にすべてのHDFS関連の技術に慣れています。 Sys.setenv(SPARK_HOME="/private/tmp/spark-1.5.0-bin-hadoop2.6") .libPaths("/private/tmp/spark-1.5.0-bin-hadoop2.6/R/lib") require('SparkR') require('data.