異なる変換(結合、マップなど)でデータセットを作成し、hbaseのテーブルAに保存したとしましょう。今私は特定の列を選択すると、hbaseの別のテーブルに同じデータセットを保存します。この場合、テーブルAに保存した後に、persist関数を使用する必要がありますか?または、私が選択機能だけを使用する場合、それは重要ではありませんか?例えばデータセットを再利用する際にspark persist関数を使用する
:
Dataset<Row> ds = //computing dataset by different transformations
//save ds to table A in hbase
ds.persist();
Dataset<Row> ds2 = ds.select(col("X"));
//save ds2 to table B in hbase
Dataset<Row> ds3 = ds.select(col("Y"),col("Z"));
//save ds3 to table C in hbase
ds.unpersist();