ファミリーファンクションは、%>%
演算子を使用してファイルを読み取った後、結果をフィルタリングして収集することができます。たとえば、あなただけのファイルの最初の2行を望んでいた場合、あなたはこのような何かを行うことができます:
DF <- spark_read_csv(sc, name = "mtcars", path = "R/mtcars.csv", header = FALSE, delimiter = ";")
DF %>% head(2) %>% dplyr::collect()
# A tibble: 2 x 12
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
<chr> <chr> <int> <chr> <int> <chr> <chr> <chr> <int> <int> <int> <int>
1 Mazda RX4 21 6 160 110 3,9 2,62 16,46 0 1 4 4
2 Mazda RX4 Wag 21 6 160 110 3,9 2,875 17,02 0 1 4 4
私はここspark_read_csv
機能を使用していますが、その結果は、両方の機能以来spark_read_parquet
と同じである必要があります同じ構造体を返します。
Hm、これらのツール(?)を使用するのではないので、rタグとdata.tableタグを削除する必要があります。 – Frank