df
Beginning1 Protein2 Protein3 Protein4 Biomarker1
Pathway3 A G NA NA F
Pathway6 A G NA NA E
Pathway1 A B C D F
Pathway2 A B H NA F
Pathway4 A B C D E
Pathway5 A B H NA F
私は、上記のデータフレーム(df)を並べ替えることで、タンパク質の経路において最も高い類似性を共有する経路(別名最大類似度2列目:4列目)は、隣り合ってソートされます。データフレームの並び順を並べ替える方法
より明確にするために、私は、出力は次のようになりたいと思います:
newdf
Beginning1 Protein2 Protein3 Protein4 Biomarker1
Pathway6 A G NA NA E
Pathway3 A G NA NA F
Pathway5 A B H NA E
Pathway2 A B H NA F
Pathway4 A B C D E
Pathway1 A B C D F
どのようにしてそれを行うに行きますか?私はユニークな(df)を含むバリエーションを試しましたが、これまでに何も働いていませんでした。
また、このデータセットでは非NA文字の順序で作業するだけですが、私が分析する実際のデータセットには、同じステップ量の何百もの経路があります。
データの画像を投稿しないでください。データを[再現可能な形式]にしておきます(https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) – MrFlick
ありがとうございました!私はスタックオーバーフローに慣れていませんでしたし、質問に自分のデータフレームを入力する方法がわかりませんでした。 –
すべての場合にうまくいくわけではありませんが、データをソートするためには、基本R 'order'関数を使用することができます:' df [with(df、order(Beginning1、Protein2、Protein3、Protein4))]] 。 – lmo