複数のデータセットからテストセットを作成し、プロセス内の変数を削除しないようにするにはどうすればよいですか？

教師付き機械学習アルゴリズムで使用するためのテストセットを作成するために、参加したい3つのデータセットがあります。問題は、共通の変数があるにもかかわらず、行と要素の数が異なることです。私はmerge（）関数を使用しようとしましたが、使用するほど、使用する行の数は少なくなります。そして最後に、ばかばかしい行数の小さなデータセットが得られます。複数のデータセットからテストセットを作成し、プロセス内の変数を削除しないようにするにはどうすればよいですか？

は、私は、これらの3つのデータセットを持っている：

test_review nºrows 22956 
test_business nrows 1205 
test_user  nrows 5105

が、私は究極のtest_setためtest_reviewデータセット（22956）のレビューの元の数を維持したいです。考え方は、当時偶然一致しなかったビジネスやユーザーが、review_setとmerge（）を使用すると、両方のデータセットをマージした結果、対応する新しい列にNa値として表示されるということです。これを可能にする方法はありますか？

出典

2017-09-12 Roy

を試すことができます。 – eipi10

投稿 'head（test_review）;頭（test_business）; head（test_user） ' – PoGibas

あなたは `merge`は、データの任意の行を削除しないことを確実にする方法は、引数`すべて= true`をを含めることです

library(plyr) 
rbind.fill(test_review,test_business,test_user)

出典

2017-09-12 19:26:43

複数のデータセットからテストセットを作成し、プロセス内の変数を削除しないようにするにはどうすればよいですか？

答えて

関連する問題