4
は私が大規模なデータが
df <- data.frame(group= c("a","a","b","b","b","c"),
person = c("Tom","Jerry","Tom","Anna","Sam","Nic"), stringsAsFactors = FALSE)
df
group person
1 a Tom
2 a Jerry
3 b Tom
4 b Anna
5 b Sam
6 c Nic
のような大規模なデータフレームを持っており、結果として取得したいと思いセットに共通の第3の検索
df.output
pers1 pers2 person_in_common
1 Anna Jerry Tom
2 Jerry Sam Tom
3 Sam Tom Anna
4 Anna Tom Sam
6 Anna Sam Tom
結果データフレームは基本的に人物のすべてのペアを持つテーブルを与えます誰が共通しているのか。私はSQLでそれを行う方法を見つけましたが、かなり長い時間がかかりますので、効率的な方法があるのだろうかと思います。
これは、設定された通常サイズのデータに適していますが、私は 'mydf'隣接行列を設定しようとすると、私は私の実際のデータとメモリの問題に実行する(' G'がほとんどです1GBのサイズ)。 – user6617454
私はそれを試みたが、私は行列が大きすぎると思う。まばらな行列で周辺をうろついていたが、それを理解できなかった。私はもう少しお試しいただき、それから一般的な問題を解決するあなたの答えを受け入れます。 – user6617454
第2版@ d.bでクラッシュせず、まだ実行中です。私はあなたにそれがどのように行くのかを知らせます – user6617454