apache-spark

    6

    1答えて

    カスタムクラスを列として含むSpark DataFrameを(寄木張りファイルとして)保存します。このクラスは別のカスタムクラスのSeqによって構成されます。これを行うために、私はVectorUDTと同様に、これらのクラスのそれぞれに対してUserDefinedTypeクラスを作成します。私は意図したようにデータフレームを扱うことができますが、寄木細工(またはjason)としてディスクに保存するこ

    5

    1答えて

    私はスパークを使用しています(kafkaとcassandraを使用) 起動時に、エラーが多い(〜100)場合、evrythingは正常に動作します。 エラーはこのタイプのものである: [ステージ0:=======>(24 + 26)/ 50] [段階3:>(0 + 24)/ 24] 15/09/17 09:48:35エラーErrorMonitor:AssociationError [akka.tc

    21

    2答えて

    RDDを複数回使用する場合、RDDをメモリおよび/またはディスクに保存することができます。しかし、私たちは後でそれを理解しなくてはいけませんか、あるいはSparkは何らかのガベージコレクションを行い、不要になったときにRDDをunpersistし​​ますか?私は、自分自身がアンパッショニスト機能を自分自身と呼んでいると、パフォーマンスが遅くなることに気付きます。

    24

    2答えて

    sparkエンジンを使用してハイブとハイブテーブルに正常に接続するスパークアプリケーションがあります。 これをビルドするには、アプリケーションのクラスパスにhive-site.xmlを追加しました。スパークはhive-site.xmlを読み取り、そのメタストアに接続します。この方法はsparkのメーリングリストで提案されました。 これまでのところとても良いです。今では2つのハイブストアに接続したい

    5

    3答えて

    Sparkにデータを渡すための簡単なFlaskアプリを作成しました。このスクリプトはIPython Notebookで動作しますが、自分のサーバで実行しようとしたときは動作しません。 Sparkコンテキストがスクリプト内で実行されているとは思わない。次の例でSparkを動作させるにはどうすればよいですか? from flask import Flask, request from pyspark

    6

    2答えて

    Hiveに書き込みデータを必要とするSpark Streamingプロジェクトの開発環境をセットアップしようとしています。 私は1つのマスタ、2つのスレーブ、1つの開発マシン(Intellij Idea 14でコーディング)を持つクラスタを持っています。 スパークシェル内では、すべてが正常に働いているようだと私はDataFrame.write.insertInto(「TESTTABLE」)を使用し

    24

    1答えて

    Spark DataFrameでこの問題を解決するのに役立つ人がいますか?私はmyFloatRDD.toDF()を行うと 私はエラーを取得:私は理解していない TypeError: Can not infer schema for type: type 'float' をなぜ... 例: myFloatRdd = sc.parallelize([1.0,2.0,3.0]) df = myFloa

    8

    1答えて

    私は、テキストファイルを読み込んでそれを前処理して作成しているRDDを持っています。私はそれを収集し、それをディスクやメモリ(データ全体)に保存するのではなく、むしろ他の関数をPythonで他の関数に渡したいとします。 これはどのように可能ですか? data = sc.textFile('file.txt').map(lambda x: some_func(x)) an_iterable =

    5

    3答えて

    私は1台のマシンしか持っておらず、メソス・クラスタ・モードでスパーク・ジョブを実行したい。ノードのクラスタで実行する方が意味があるかもしれませんが、主に、静的分割を行わずに同時に複数のスパークジョブを実行することで、リソースをより効率的に利用できるかどうかを確認するために、まずメスをテストします。私はいくつかの方法を試みましたが、成功しませんでした。ここでは、私がやったことです: は(同じマシンで

    43

    2答えて

    DataFrameの列を任意の値(各行に同じ値)で追加したいとします。私は次のように私はwithColumnを使用するときにエラーが発生します: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- Attribut