1
私はMM +レコードを持つ膨大なデータセットを持っており、各レコードに一意のIDを割り当てようとしています。以下のコードを試しましたが、行IDが連続しているので時間がかかります。私は仕事を最適化するメモリパラメータを調整しようと多くのパフォーマンスを得ることができませんでした。各レコードスパークのユニークIDを生成する方法
サンプルスニペット:
JavaRDD<String> rawRdd=......
rawRdd.zipWithIndex()
.mapToPair(t->new Tuple2<Long,String>(t._2,t._1))
一意のIDを割り当てる任意のより良い方法はありますか?おかげ
ありがとうございます。アプローチ2の詳細を追加してください。 –
[rest example](https://www.mkyong.com/spring-mvc/spring-3-rest-hello-world-example/)に従って、RESTを使用して集中IDを作成し、それをsparkから呼び出してidをそれぞれに割り当てます記録。 –