巨大なデータフレームのユニークなエントリの取得

私は5億のエントリを持つデータフレームを持ち、いくつかは複製されています。サーバーは問題なくメモリー内にデータ・フレームを保持できますが、ユニークな（）関数を適用しようとすると、サーバーがフリーズして終了します。巨大なデータフレームのユニークなエントリの取得

"id_A","id_B_C" 
"1068095976599746","137459917707_10151666538852708" 
"964549956973805","137459917707_10151666538852708" 
"10154089033126355","137459917707_10151666538852708" 
"548826058653873","137459917707_10151666538852708" 
"1048575401891319","137459917707_10151666538852708" 
"10209663598697145","137459917707_10151666538852708" 
"10209718419385277","137459917707_10151666538852708"

エントリ（各列）一意のIDを持っていないので、ID_A及びid_B_Cの統一一意のエントリIDのために作る：

データ・フレームは、このフォーマットを有します。私はid_Aまたはid_B_Cに基づいてデータフレームを分割することによってユニークな機能を適用することができますが、ユニークIDの数はそれぞれ約1億回です。

重複したエントリを削除する最適な方法はありますか？

出典

2016-07-01 user3388408

data.frameまたはmatrixがありますか？ – akrun

おそらく 'data.table'かdata.frame以外のものを使うべきでしょう。また、「id_Aまたはid_B_Cに基づいてデータフレームを分割することでユニークな機能を適用できますが、ユニークIDの数はそれぞれ約1億回です」という意味を明確にすることはできますか？これらの2つの列を組み合わせるだけではなく、何らかの方法でデータを分割することを意味していますか？あなたが話していることを説明するためにコードを表示できますか？ –

また、実用的な観点からは、Rをリレーショナルデータベースに適したものに使用する理由は見当たりません。 SQLや何かで前処理をしてから、結果をRに送るのはなぜでしょうか？ RはBig DataのETLにはあてはまらない。 –

ffパッケージを使用すると、データフレームをRAMにロードせずに使用できます。どのようにこれが重複した機能やユニークな機能と相互作用するかはわかりませんが、あなたのRAM使用量はやや軽減されます。

出典

2016-07-01 10:10:31 Choubi

巨大なデータフレームのユニークなエントリの取得

答えて

関連する問題