apache-spark

6熱

1答えて

カスタムクラスを列として含むSpark DataFrameを（寄木張りファイルとして）保存します。このクラスは別のカスタムクラスのSeqによって構成されます。これを行うために、私はVectorUDTと同様に、これらのクラスのそれぞれに対してUserDefinedTypeクラスを作成します。私は意図したようにデータフレームを扱うことができますが、寄木細工（またはjason）としてディスクに保存するこ

5熱

1答えて

多くのエラーErrorMonitor：スパーク起動時にAssociationError

私はスパークを使用しています（kafkaとcassandraを使用）起動時に、エラーが多い（〜100）場合、evrythingは正常に動作します。エラーはこのタイプのものである： [ステージ0：=======>（24 + 26）/ 50] [段階3：>（0 + 24）/ 24] 15/09/17 09:48:35エラーErrorMonitor：AssociationError [akka.tc

21熱

2答えて

Sparkは、RDD自体がそれ以上使用されないことを認識すると、それを理解しませんか？

RDDを複数回使用する場合、RDDをメモリおよび/またはディスクに保存することができます。しかし、私たちは後でそれを理解しなくてはいけませんか、あるいはSparkは何らかのガベージコレクションを行い、不要になったときにRDDをunpersistしますか？私は、自分自身がアンパッショニスト機能を自分自身と呼んでいると、パフォーマンスが遅くなることに気付きます。

24熱

2答えて

Apache Sparkを使用して複数のHiveストアを照会する

sparkエンジンを使用してハイブとハイブテーブルに正常に接続するスパークアプリケーションがあります。これをビルドするには、アプリケーションのクラスパスにhive-site.xmlを追加しました。スパークはhive-site.xmlを読み取り、そのメタストアに接続します。この方法はsparkのメーリングリストで提案されました。これまでのところとても良いです。今では2つのハイブストアに接続したい

5熱

3答えて

Flaskアプリからのスパークへのアクセス

Sparkにデータを渡すための簡単なFlaskアプリを作成しました。このスクリプトはIPython Notebookで動作しますが、自分のサーバで実行しようとしたときは動作しません。 Sparkコンテキストがスクリプト内で実行されているとは思わない。次の例でSparkを動作させるにはどうすればよいですか？ from flask import Flask, request from pyspark

6熱

2答えて

IDEAでSpark on Hiveプロジェクトを実行中にトランザクション接続ファクトリを作成する際にエラーが発生しました

Hiveに書き込みデータを必要とするSpark Streamingプロジェクトの開発環境をセットアップしようとしています。私は1つのマスタ、2つのスレーブ、1つの開発マシン（Intellij Idea 14でコーディング）を持つクラスタを持っています。スパークシェル内では、すべてが正常に働いているようだと私はDataFrame.write.insertInto（「TESTTABLE」）を使用し

24熱

1答えて

Spark DataFrameを作成します。スキーマタイプを推論することはできません：<type 'float'>

Spark DataFrameでこの問題を解決するのに役立つ人がいますか？私はmyFloatRDD.toDF（）を行うと私はエラーを取得：私は理解していない TypeError: Can not infer schema for type: type 'float' をなぜ... 例： myFloatRdd = sc.parallelize([1.0,2.0,3.0]) df = myFloa

8熱

1答えて

RDDをiterableに変換する：PySpark？

私は、テキストファイルを読み込んでそれを前処理して作成しているRDDを持っています。私はそれを収集し、それをディスクやメモリ（データ全体）に保存するのではなく、むしろ他の関数をPythonで他の関数に渡したいとします。これはどのように可能ですか？ data = sc.textFile('file.txt').map(lambda x: some_func(x)) an_iterable =

5熱

3答えて

ディスパッチャを使用したスパーク・メゾ・クラスタ・モード

私は1台のマシンしか持っておらず、メソス・クラスタ・モードでスパーク・ジョブを実行したい。ノードのクラスタで実行する方が意味があるかもしれませんが、主に、静的分割を行わずに同時に複数のスパークジョブを実行することで、リソースをより効率的に利用できるかどうかを確認するために、まずメスをテストします。私はいくつかの方法を試みましたが、成功しませんでした。ここでは、私がやったことです：は（同じマシンで

43熱

2答えて

Spark DataFrameに定数カラムを追加するには？

DataFrameの列を任意の値（各行に同じ値）で追加したいとします。私は次のように私はwithColumnを使用するときにエラーが発生します： dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- Attribut