apache-spark

    13

    1答えて

    スローできないコードにNullPointerExceptionが発生します。 私はJREにバグを見つけたと思っています。コンパイラとしてjavac 1.8.0_51を使用していますが、問題はjre 1.8.0_45と最新の1.8.0_60の両方で発生します。 例外をスローする行は、ループ内にあります。これはクロージャーラムダ関数内にあります。私たちは、このような閉鎖を火花1.4で実行しています。

    8

    3答えて

    Spark 1.4.0を使用して、insertIntoJdbc()を使用して、Spark DataFrameからMemSQLデータベース(正確にはMySQLデータベースとやりとりするようなもの)にデータを挿入しようとしています。しかし、私はRuntime TableAlreadyExists例外を取得し続けます。 まず私はこのようなMemSQLテーブルを作成します。 CREATE TABLE IF

    11

    1答えて

    したがって、iveには3000行のrddがあると仮定します。 2000年の第1行はクラス1であり、最後の1000行はクラス2である。 RDDは100個のパーティションに分割されています。 機能もRDDをシャッフルしていRDD.randomSplit(0.8,0.2) を呼び出しますか?私たちは分裂を単に20%連続的にrddのサンプルですか?それとも、20%のパーティションをランダムに選択するのです

    13

    1答えて

    寄せ木ファイルdataは、そのdate列に分割して書き込まれた場合、我々は同じようなディレクトリ構造を取得:パーティションdate=2はなど、シェルまたはファイルブラウザ経由(寄せ木ユーティリティの関与なしに削除された場合 /data _common_metadata _metadata _SUCCESS /date=1 part-r-xxx.g

    17

    2答えて

    私は、ParquetファイルをPythonを使って書くことができるライブラリを見つけるのに困っています。ボーナスは、スナッピーやそれに類似の圧縮メカニズムを併用することができます。 は、これまで私が見つけた唯一の方法は、pyspark.sql.DataFrame寄木サポートしてスパークを使用しています。 私は仕事をスパークされていない寄せ木ファイルを作成する必要がありますいくつかのスクリプトを持っ

    5

    1答えて

    SparkとScalaが新しく、MLlibのドキュメントを読もうとしています。 http://spark.apache.org/docs/1.4.0/mllib-data-types.htmlのチュートリアル、 import org.apache.spark.mllib.linalg.Vector import org.apache.spark.mllib.linalg.distributed.

    8

    1答えて

    私はFooクラスのRDDを持っています:class Foo(name : String, createDate : Date)。 10%の年齢の別のRDDがFooになります。 私の最初のアイデアは、createDateでソートし、0.1 *カウントで制限することでしたが、制限機能はありません。 アイデアはありますか? Fooを仮定

    6

    3答えて

    分散型スパーククラスタ(バージョン1.5.0)をセットアップし、spark-perfを実行しようとしました。しかし、私たちはこのエラーを受け取り、それを修正する方法は知らない。 15/10/05 20:14:37 ERROR SparkUncaughtExceptionHandler: Uncaught exception in thread Thread[appclient-registrati

    14

    1答えて

    Sparkでデータを読み込んで処理するために使用しているPythonクラスがあります。私がする必要があるさまざまなことの中で、私はSparkデータフレームのさまざまな列から派生したダミー変数のリストを生成しています。私の問題は、私が必要とするものを達成するためにユーザー定義関数を正しく定義する方法がわからないということです。基本的にどのようなこの def build_feature_arr(sel

    8

    2答えて

    SparkとCassandra Spark Connectorを使用してストリームデータをCassandraに保存しようとしました。 私は次のようなものを作っ: モデルクラスを作成します:モデルへのコンテンツ public class ContentModel { String id; String available_at; //may be null publ