0
さまざまなテーブルを読み込むためにScalaデータフレームを並列化する必要があります。私は約1.7TBのデータを持っているファクトテーブルを持っています。これはロードに約5分かかります。私は同時に私のディメンションテーブルをロードして、全体のスケーラを減らすことができます。私はScalaのConcurrent APIに精通していませんか?データフレームでConcurrency APIを使用するには?
さまざまなテーブルを読み込むためにScalaデータフレームを並列化する必要があります。私は約1.7TBのデータを持っているファクトテーブルを持っています。これはロードに約5分かかります。私は同時に私のディメンションテーブルをロードして、全体のスケーラを減らすことができます。私はScalaのConcurrent APIに精通していませんか?データフレームでConcurrency APIを使用するには?
あなたはSparkを読む必要があります - それは、単一のマシンの範囲を超えてデータの処理を並列化することです。基本的にSparkは、並行して実行する多くのタスクによって負荷を並列化します。クラスタをどのように設定するかは、ローカルモデルで実行した場合のみです。私はそれを明確にあなたもsqlContext.sql(「FACT_TABLE SELECT FROMキー
他のScalaの並行処理APIを使用してはならないことはなかった場合には、少なくともローカル[あなたが持っているプロセッサの数]
でそれを実行する必要があり、sqlContext.sql( "FROM Dimension2 SELECTキー、値")。sqlContext.sql( "FROM Dimension2 SELECTキー、値")。 foreach(println) このようにコマンドを実行すると最初にFact Table Selectを実行してからDimension1を実行してからDimension 2を実行します 上記のケースでは、同時にFact TableとDimension Tablesをロードするために文を実行したいのですが、 –
は収集しません。エグゼクティブにデータを送り返します。これはXY問題(http://xyproblem.info/)のようです。あなたが解決しようとしているものと別の質問をしてください。 –
私は理想的に例を挙げました。すべてのデータフレームとファクトテーブルを結合して最終的なテーブルを取得することができます。しかし、私の疑問は、ハイブテーブルのデータをスカラのデータフレームに同時にロードする方法です –