0
教師付き機械学習アルゴリズムで使用するためのテストセットを作成するために、参加したい3つのデータセットがあります。問題は、共通の変数があるにもかかわらず、行と要素の数が異なることです。私はmerge()関数を使用しようとしましたが、使用するほど、使用する行の数は少なくなります。そして最後に、ばかばかしい行数の小さなデータセットが得られます。複数のデータセットからテストセットを作成し、プロセス内の変数を削除しないようにするにはどうすればよいですか?
は、私は、これらの3つのデータセットを持っている:
test_review nºrows 22956
test_business nrows 1205
test_user nrows 5105
が、私は究極のtest_setためtest_reviewデータセット(22956)のレビューの元の数を維持したいです。考え方は、当時偶然一致しなかったビジネスやユーザーが、review_setとmerge()を使用すると、両方のデータセットをマージした結果、対応する新しい列にNa値として表示されるということです。これを可能にする方法はありますか?
を試すことができます。 – eipi10
投稿 'head(test_review);頭(test_business); head(test_user) ' – PoGibas