まず、2つの別々のテキストソースのフィーチャのマトリックスとフィーチャのdata.frame
がある。それぞれについて、私は異なるテキストマイニング方法を実行しました。今、私はそれらを結合したいが、私はそれらのいくつかは、次のように同じ名前の列を持って知っている:R - 同じ名前のカラムを結合するが、いくつかのデータ値は0に等しい
> dtm.matrix[1:10,66:70]
cough nasal sputum yellow intermitt
1 1 0 0 0 0
2 1 0 0 0 0
3 0 0 0 0 0
4 0 0 0 0 0
5 0 0 0 0 0
6 1 0 0 0 0
7 0 0 0 0 0
8 0 0 0 0 0
9 0 0 0 0 0
10 0 0 0 0 0
> dim(dtm.matrix) [1] 14300 6543
そして、第2のセットは次のようになります。
> data1.sub[1:10,c(1,37:40)]
Data number cough coughing up blood dehydration dental abscess
1 1 0 0 0 0
2 3 1 0 0 0
3 6 0 0 0 0
4 8 0 0 0 0
5 9 0 0 0 0
6 11 1 0 0 0
7 12 0 0 0 0
8 13 0 0 0 0
9 15 0 0 0 0
10 16 1 0 0 0
> dim(data1.sub)
[1] 14300 168
私はthis topicからこのコードを入手しましたが、私はRが新しく、まだ助けが必要です。
このコードを実行すると、1x6667の行列が返され、2つのデータセットの "咳"(または他の列)が一緒にマージされません。よくわかりません。これがどのように機能するか教えてください。
あなたが簡単に、シンプルマージあなたは残りのデータを保存しておきたいことを考えると、このような場合には、それぞれと呼ばれる「データ数」で共有列にこれらの2つのオブジェクトをマージしようとしているように思えます基本的なことは、両方のセット(マージされる)に複製されるすべての列をキーとして明示的に参照することです。そして、それが機能するためには、両方のセットのすべてのキーのすべてのデータが、他のセットの同じ列と行に一致する必要があります。おそらく、データフレームのように、両方を同じタイプのデータ構造に変換する必要があります。 – sconfluentus
私は、同じ名前のないすべての列に対して、これらのオブジェクトをまとめてマージしようとしています。同じ名前の列の場合は、両方のオブジェクトのすべての= 1の値を保持しながら、両方の列を1つの列にマージします。これが明らかな場合は、動作するコードのサンプルを表示できますか? – Diana01
ようこそStackOverflowへ!サイトポリシーの問題(さらには「r」タグ内でも)は、データがどのように表示されるかを示すだけでなく、最小限の、完全で検証可能な例(MCVE)を提供することをお奨めします。 'dput'や質問の組み込みデータセットを使うなど、再現可能なデータを提供してください。 http://stackoverflow.com/help/mcveおよびhttps://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example –