2016-07-01 5 views
0

私は5億のエントリを持つデータフレームを持ち、いくつかは複製されています。サーバーは問題なくメモリー内にデータ・フレームを保持できますが、ユニークな()関数を適用しようとすると、サーバーがフリーズして終了します。巨大なデータフレームのユニークなエントリの取得

"id_A","id_B_C" 
"1068095976599746","137459917707_10151666538852708" 
"964549956973805","137459917707_10151666538852708" 
"10154089033126355","137459917707_10151666538852708" 
"548826058653873","137459917707_10151666538852708" 
"1048575401891319","137459917707_10151666538852708" 
"10209663598697145","137459917707_10151666538852708" 
"10209718419385277","137459917707_10151666538852708" 

エントリ(各列)一意のIDを持っていないので、ID_A及びid_B_Cの統一一意のエントリIDのために作る:

データ・フレームは、このフォーマットを有します。私はid_Aまたはid_B_Cに基づいてデータフレームを分割することによってユニークな機能を適用することができますが、ユニークIDの数はそれぞれ約1億回です。

重複したエントリを削除する最適な方法はありますか?

+1

data.frameまたはmatrixがありますか? – akrun

+0

おそらく 'data.table'かdata.frame以外のものを使うべきでしょう。また、「id_Aまたはid_B_Cに基づいてデータフレームを分割することでユニークな機能を適用できますが、ユニークIDの数はそれぞれ約1億回です」という意味を明確にすることはできますか?これらの2つの列を組み合わせるだけではなく、何らかの方法でデータを分割することを意味していますか?あなたが話していることを説明するためにコードを表示できますか? –

+1

また、実用的な観点からは、Rをリレーショナルデータベースに適したものに使用する理由は見当たりません。 SQLや何かで前処理をしてから、結果をRに送るのはなぜでしょうか? RはBig DataのETLにはあてはまらない。 –

答えて

0

ffパッケージを使用すると、データフレームをRAMにロードせずに使用できます。どのようにこれが重複した機能やユニークな機能と相互作用するかはわかりませんが、あなたのRAM使用量はやや軽減されます。

関連する問題