0
私は5億のエントリを持つデータフレームを持ち、いくつかは複製されています。サーバーは問題なくメモリー内にデータ・フレームを保持できますが、ユニークな()関数を適用しようとすると、サーバーがフリーズして終了します。巨大なデータフレームのユニークなエントリの取得
"id_A","id_B_C"
"1068095976599746","137459917707_10151666538852708"
"964549956973805","137459917707_10151666538852708"
"10154089033126355","137459917707_10151666538852708"
"548826058653873","137459917707_10151666538852708"
"1048575401891319","137459917707_10151666538852708"
"10209663598697145","137459917707_10151666538852708"
"10209718419385277","137459917707_10151666538852708"
エントリ(各列)一意のIDを持っていないので、ID_A及びid_B_Cの統一一意のエントリIDのために作る:
データ・フレームは、このフォーマットを有します。私はid_Aまたはid_B_Cに基づいてデータフレームを分割することによってユニークな機能を適用することができますが、ユニークIDの数はそれぞれ約1億回です。
重複したエントリを削除する最適な方法はありますか?
data.frameまたはmatrixがありますか? – akrun
おそらく 'data.table'かdata.frame以外のものを使うべきでしょう。また、「id_Aまたはid_B_Cに基づいてデータフレームを分割することでユニークな機能を適用できますが、ユニークIDの数はそれぞれ約1億回です」という意味を明確にすることはできますか?これらの2つの列を組み合わせるだけではなく、何らかの方法でデータを分割することを意味していますか?あなたが話していることを説明するためにコードを表示できますか? –
また、実用的な観点からは、Rをリレーショナルデータベースに適したものに使用する理由は見当たりません。 SQLや何かで前処理をしてから、結果をRに送るのはなぜでしょうか? RはBig DataのETLにはあてはまらない。 –