私は、異なる集団からの遺伝子型情報を持つ巨大なデータセットを持っています。私は人口別にデータを並べ替えたいが、どのようにしたらよいかわからない。サブセットデータ/最初の7文字に基づいてデータを抽出
私は "pedigree_dhl"で並べ替えたいと思います。次のコードを使用していましたが、エラーメッセージが表示されていました。
newdata <- project[pedigree_dhl == CCB133$*1, ]
「pedigree-dhl」には、個々の遺伝子型の名前がすべて含まれているという問題もあります。列 'pedigree-dhl'の最初の7文字のみが母集団名です。この例では、CCB133です。 CCB133を含むすべての列のデータを抽出したいとRに指示するにはどうすればよいですか?
Allele1 Allele2 SNP_name gs_entry pedigree_dhl
1 T T ZM011407_0151 656 CCB133$*1
2 T T ZM009374_0354 656 CCB133$*1
3 C C ZM003499_0591 656 CCB133$*1
4 A A ZM003898_0594 656 CCB133$*1
5 C C ZM004887_0313 656 CCB133$*1
6 G G ZM000583_1096 656 CCB133$*1
'substr'では、文字ベクトルの部分文字列を抽出することができます。 'substr'を使用する前に、実際に列が文字ベクトルであり、因子ではないことを確認するか、予期しない結果が生じることがあります。サブセット化のためには、SOに 'Rサブセット'を検索すれば、多くの解答が得られます。 'subset()'関数自体はインタラクティブなセッションには非常に便利ですが、 '['演算子を使うのが望ましい状況があります。 – Chase