rdd

3熱

0答えて

spill to diskとshuffle writeについて混乱しています。既定の並べ替えシャッフルマネージャを使用して、appendOnlyMapを使用してパーティションレコードを集約し、結合します。そして、実行メモリがいっぱいにするとき、我々はそれをディスクにこぼし、マップを並べ替え起動し、次の流出のためのマップを（発生した場合）、クリーンアップ、私の質問は以下のとおりです。ディスクへの流

1熱

1答えて

クラスオブジェクトをJava RDDに変換します

私はポガーAnalyticsModelを持っています。私はpojoのオブジェクトを作成するループを持っています。オブジェクトを作成するたびに、私はAnalyticsModelListという名前のリストに保存します。そしてループから出た後、私はリストをRDDに変換しています。以下は私のコードです： do { AnalyticsModel analyticsObj = new Analy

0熱

1答えて

sparkでxmlファイルの非常に大きなデータセットを読む

私はsparkで180.000以上のxmlsを読み込み、それぞれの解析プロセスを開始して、最終的にcsvファイルをテーブルとして取得します。これらのxmlはbz2ファイルで圧縮されています。私はこのbz2：の2つのバージョンがあり、1つに連結されたxmls（それぞれ30mb）と1つのxmlsが含まれていることを知っています。問題が sc.textFile(hdfs_input_path).

0熱

1答えて

mapPartitions（Spark）の結果を合理化

mapPartitions()に部分的な結果を返す方法はありますか？パーティションがresults配列がOOM例外がスローされます大きすぎる場合 myRDD.mapPartitions{ iter: iterator[InputType] => { val additionalData = <some costly init operation> val result

1熱

1答えて

pysparkでMultiClassMetricsを使用してfスコアを計算する方法は？

私はpysparkのドキュメントで見たよう、fmeasure()機能がlabelとbetaをしている2つの引数を取ります。ベータ版はここにある何 fMeasure(label=None, beta=None) ？私はRDDである。このように設定され、非常に単純なデータ使用しています：私は、このコマンドを実行すると +----------+-----+ |prediction|label|

1熱

1答えて

キャッシュされたSpark RDDを再利用

キャッシュされたRDDを別のアプリケーション（または同じアプリケーションの別のラン）で再利用する可能性はありますか？ JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in another application

0熱

2答えて

スケーラを使用したRDDの作成

RDD[((String, String, String), String, DateTime)]を作成します。タプルStringとDateTimeの値を使用し、テキストファイルから読み込むのではなく、メソッド内で作成できますか？私はこれを作成するためにScalaを使用しています。実際には、以下の方法でRDD [（（String、String、String）、String、DateTime）]

1熱

1答えて

この操作は、dataframe.persist（StorageLevel.MEMORY_AND_DISK（））とdataframe.persist（StorageLevel.MEMORY_AND_DISK）は同じですか？

この操作は dataframe.persist(StorageLevel.MEMORY_AND_DISK())とdataframe.persist(StorageLevel.MEMORY_AND_DISK)は同じですか？正しい構文を見つけようとしてください

3熱

1答えて

行ごとに計算し、DataFrame PySpakで新しい列を追加してください - より良いソリューションですか？

私はPySparkでデータフレームを扱います私は次のタスクを持っています：各列の "times"値の数がすべて> 2であることを確認してください。 u1については、u2 => 2などで user a b c d times u1 1 0 1 0 0 u2 0 1 4 3 2 u3 2 1 7 0 1 私の解決策は以下の通りです。それは動作します、私はそれが最良の