rdd

    0

    1答えて

    Pythonを使ってApache SparkでKeyValueRDDをどのように結合しますか? このは、私はこれを試してみてください持っている私の2 RDD rddUser:[((u'M', '[68-73]', u'B'), u'TwoFace'), ((u'F', '[33-38]', u'Fr'), u'Catwoman'), ((u'Female', '[23-28]', u'L'), u

    0

    1答えて

    私はSparkにとって非常に新しく、私が開発したコードは期待通りの速さで動作しません。私は今、私は私の質問は3倍で、これはacheivingされる並列度をチェックすることを決めたと sc.defaultParallelism >>> 1 を使用初期化は、環境 spark_path = "C:\spark" os.environ['SPARK_HOME'] = spark_path os.

    1

    1答えて

    見てthis非常に良いビデオの内部をスパークするプレゼンターは、キャッシング後にRDDにアクションを実行しない限り、キャッシングは実際には起こらないと言います。 他の状況でcount()が呼び出されることはありません。だから私は、彼が与えている簡単な例で永続性を強制するために、cache()の後でcount()を呼び出すだけであると推測しています。コード内でcache()またはpersist()を

    4

    1答えて

    私は約15GBのCSVファイルをキャッシュしなければならないSparkアプリケーションを構築しています。私はここスパーク1.6で導入された新しいUnifiedMemoryManagerについて読む: https://0x0fff.com/spark-memory-management/ また、この絵を示しています 著者は(再びStorage and Execution Memoryに分割されている

    3

    2答えて

    sparkContextの違いは何ですか?javaSparkContext SQLContext SparkSession? Sparksessionを使用してコンテキストを変換または作成する方法はありますか? 1つのエントリSparkSessionを使用して、すべてのコンテキストを完全に置き換えることはできますか? SQLContext、SparkContext、JavaSparkContext

    1

    2答えて

    私はsparkの教科書を読んでいます。私はその変換と動作を見て、再びrdd関数を読んでいます。だから私は混乱しています。誰も変換とspark rdd関数の基本的な違いを説明できます。 両方ともrddデータの内容を変更し、新しいrddを返すために使用されますが、私は正確なexplantionを知りたいと思います。

    2

    1答えて

    にRDDのタイプを取得しますが、私はRDDを持っている場合、私は次のタイプ今 RDD[(Long, Array[(Long, Double)])] のRDDを持っているとしましょう、実行時に(上記のように)そのタイプをどのように見つけることができますか? 私は基本的に2つのRDDをランタイムに比較して、同じ種類のデータ(それ自体が異なるかもしれない値)を保存しているかどうかを確認したいのですが

    3

    1答えて

    私はSparkでデータセットを学習しようとしています。私が理解できないことの1つはKeyValueGroupedDatasetを表示する方法です。showは機能しません。また、KeyValuGroupedDataSetのmapに相当するものは何ですか?誰かがいくつかの例を挙げたら、私は感謝します。

    0

    1答えて

    からの連続インデックスの値を読んでください、私は、Sparkスカラ座での問題を抱えているシリーズのキーから最初の値を取得し、私はこのような新しいRDDを作成します。 [(a,1),(a,2),(a,3),(a,4),(b,1),(b,2),(a,3),(a,4),(a,5),(b,8),(b,9)] 私が取得したいですコメントで述べたように、私はRDD