私はdata.tableの各行に効率的に関数を適用する方法を探しています。のは、次のデータテーブルを考えてみましょう: data.tableの各行に関数を適用する
library(data.table)
library(stringr)
x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
だが、私はスペースで列
b
の各要素を分割したいとしましょう(そのため、元のデータの行ごとに2つの行を与える)し、得られたデータテーブルを結合。上記の例では、私は次のような結果を必要とする:いくつかがある場合を除き
x[, list(str_split(b, ' ')[[1]]), by = a]
次ほとんど作品(:列a
のみ一意の値を持っている場合
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
次はに働くだろう元のデータテーブルでは同じ行)、しかし、x
が多くのカラムを持ち、カラムbを結果にコピーすると醜いですが、これは避けたいものです。
> x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
a b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19
この問題を解決する最も効率的かつ慣用的な方法はありますか?よりよい解決策がある場合は
x[, list(a, str_split(b, ' ')[[1]]), by = r]
私は思ったんだけど:
Matthewありがとう各bの2つのコンポーネントはスペースで区切られていますが、より一般的なケースでは動作しません。それぞれのbは1〜10のコンポーネントを持つことができます)。それはあなたの質問を何度か正確に指定するのは難しいことを示しています:)。 –
@ VictorK。そこに行く。 –
Matt、これは、時間を大幅に節約し、効率的に実行する完璧なソリューションです。あなたのDTは本当にrベースでDFを置き換える必要があることを示しています。私はこれを私のビッグデータ分析クラスで引用します。 1つの疑問は、マルチコアで並列実行することで、どのように効率を上げることができるのでしょうか?私はhtopと1つのコアを確認しました。 –