データセットが非常に大きく(5,200万行×6列)、2つの列には繰り返し値があり、1列は別の列のサブセットです。例えばデータフレームの繰り返しサブセットの一意の値を抽出する
次のように、データフレームを取る: enter image description here
を私は次のようにデータフレームを取得したいのですが:
私は上記の例のために、次のコードを使用しました:
DISP < - ユニーク(mtcars $ DISP) CYL < - ユニーク(mtcars $ CYL)
NEW_DATA < - data.frame(1:長さ(DISP)、1:長さ(DISP)) NEW_DATA $ DISP < - (iは1:長さ(DISP))のため
をDISP {
NEW_DATA $ CYL [i]は< - mtcars $ CYL [グレップ(DISP [i]は、mtcars $ DISP)] }
が、私は大規模なデータセットを渡ってそれを複製しようとしているとき、これは動作しません( RAMは私のマシンが最も強力ではないので、考えられる問題です)。
私の質問は、大規模なデータセットに対してこの同じ練習をするより良い方法はありますか?
[MCVE] –
あなたが必要としてくださいあなたがdf1からdf2へ行く方法を明確にする。あなたは、すべてのユニークなdispとcylコンボを望んでいますか?ユニークな車情報を1つの行に入れるだけですか?あなたの質問は非常に不明です。 – leeum
私はすべてのユニークなdisp&cylコンボが必要です – sacpop