私はPythonに読みたい2つのtxtファイルを持っています:1)地図ファイル、2)データファイル。ルックアップテーブルや辞書に2つの列の値を読み込み、pandas.map関数のようなものを使って3番目の列に入れる値を決定します。実際のマップファイルは〜70万行、実データファイルは〜1000万行です。私はいくつか見つかっpython pandas - 参照として2列を使用したマップ
Chr Position Name
1 1000 SNPA
1 2000 SNPB
2 1000 SNPC
2 2001 NaN
:データは、最終的なテーブルを結果の
Chr Position
1 1000
1 2000
2 1000
2 2001
ファイル -
玩具DATAFRAME(または私は辞書として再作成することができ) - 地図
Chr Position Name
1 1000 SNPA
1 2000 SNPB
2 1000 SNPC
2 2000 SNPD
玩具DATAFRAME 1つの列ルックアップ:Adding a new pandas column with mapped value from a dictionaryでこれに関する質問。しかし、2つの列を使用する方法を見つけることができないようです。私はゲノムデータを扱うことができる他のパッケージにもオープンしています。
ボーナスの第2の質問の場合、マッピングされた値がある程度あれば、3番目の列をマッピングする方法があればいいでしょう。言い換えれば、上の表の4行目はSNPDにマップされます。しかし、私はちょうど上記の解決策を得ることを嬉しく思う。
のようなものを試してみてください?私はちょうどPythonとpandasで始めます(私は通常Rで働いています)。列の名前を変更するのですか、それとも別の方法ですか? –
@GaiusAugustusには、参加のために使用される3つの機能があります: 'join'、' merge'、 'concat' - read [docs](http://pandas.pydata.org/pandas-docs/stable/ merging.html)、それはあなたが良いスタートを持つのに役立ちます – MaxU