私は、DataSet>という形式のタプルデータセットを持っています。フィールドStringの "全体"データセットをソートして、ファイル内のLong値のみを取得したいとします。 Flinkはソートパーティションを提供していますが、データセットを完全にソートする必要があるため、ここでは役に立ちません。Apache Flinkでデータセットをソートする方法は?
1
A
答えて
5
また、あなたが1
に並列処理を設定している場合、完全なDataSet
をソートするsortPartition()
を使用することができます。
DataSet<Tuple2<String, Long>> data = ...
DataSet<Tuple2<String, Long>> sorted = data
.sortPartition(0, Order.ASCENDING).setParallelism(1); // sort in one partition
DataSet<Long> longs = sorted.map(new LongExtractor()); // map to extract long
+0
したがって、並列性が1に設定されていない場合、データセット全体が完全にソートされませんか?具体的には、並列性が2に設定されている場合、各作業者はデータをソートしますが、パーティション間で昇順はありません。 –
+1
はい、そうです。 'sortPartition'を呼び出す前にソートキーのDataSetを範囲指定すると、ソートされたパーティションは互いに素な範囲になります。 –
関連する問題
- 1. Apache flinkデータセット
- 2. Apache Flink DataStreamのフィード方法
- 3. Apache flinkのノード間でデータセットを共有する最良の方法は何ですか?
- 4. Apache Flinkでストリームをセッション化する方法は?
- 5. apache flinkダッシュボードでタスクの名前をカスタマイズする方法は?
- 6. Python Flink APIでソートする
- 7. Apache ApexとApache Flink
- 8. ApacheのFLINKは、[]カフカ
- 9. Apache Flinkでのグローバルソート
- 10. Apache Flinkでelasticsearch 5.xに接続する方法
- 11. ApacheのFLINK:私は私のFLINKアプリケーションを実行するとTupleSerializer
- 12. Apache Flink:ストリーミングアプリケーションにintermediaデータを保存する方法
- 13. Apache Flink Webコンソールのステータスを照会する方法[metrics api]
- 14. Apache Flink Kafka Itegration
- 15. Apache Flink RollingFileAppender
- 16. カフカコンシューマ対Apache Flink
- 17. apache flink DataSetウィンドウアグリゲーション
- 18. Apache Flinkストリームスケーリング
- 19. Apache Flink - org.apache.flink.client.program.ProgramInvocationException
- 20. Apache Beam/Flink ExceptionInChainedStubException
- 21. Apache Flink - groupBy
- 22. Apache Flinkとイベントシーケンス
- 23. Apache Flinkで静的テーブルを永続化する方法はありますか
- 24. ApacheのFlinkコネクタを構築する最も良い方法は何ですか?
- 25. Apache Flink:バッファタイムアウトパラメータを変更するには?
- 26. Apache FlinkでDynamoDBストリームを使用する
- 27. EclipseでApache Flinkの例をコンパイルする
- 28. Apache-FlinkでC/C++を使用する
- 29. Apache Flinkでタスク状態を正しく初期化する方法は?
- 30. データセットのデータをソートして選択する方法は?
前と後のデータのサンプルを?たぶんあなたが今までに試したコードとそれが失敗した方法は? –