マージデータフレームメモリ効率の問題パンダ

のために、この正確なコマンドを使用しようとしていますが、私のシステムは、単に、（私は〜315,000のラインを持っているためかもしれない）に任意のより良い方法を凍結するだろうこれを行う？以下は私のコードです：

new_df = df.merge(gene_df, how='outer', on ='chrm') 
new_df = new_df[(new_df.start_x>=df.start_y) & (df.end_x<=df.end_y)] 
print (new_df.head(10))

2017-05-03 sbradbio

は単にnew_dfフィールドを使用します。ロジックでは、以前にマージされた元のdfのフィールドが使用されます。慎重に、リンクされた質問を見てください。データフレーム間のそのようなロジックは実行するのが難しいでしょう！

new_df = new_df[(new_df.start_x >= new_df.start_y) & (new_df.end_x <= new_df.end_y)]

2017-05-03 17:09:30 Parfait

代替アプローチはありますか？私のアップストリームコードとダウンストリームコードのほとんどはパンダに入っています。 – sbradbio

あなたの投稿コードはタイプミスですが、それは接尾辞付きの '_x'、' _y'で間違っているはずですから？ – Parfait

答えて