私は生物中に何千ものタンパク質を含むファイルを扱っています。私は個々のタンパク質をひとつずつ調べてアミノ酸の頻度を決定するコードを持っています。一度にすべてのアミノ酸の頻度を決定できるように私の現在のコードを変更する方法がありますか?アミノ酸の操作
Q
アミノ酸の操作
1
A
答えて
1
IIUCでは、ホイールを少し改革しています。BioPythonには、さまざまな形式のファイル(あなたのケースではFASTA)を扱うユーティリティと簡単な分析が含まれています。あなたの例では、私はこのようなものを使用したい:
from Bio import SeqIO
from Bio.SeqUtils.ProtParam import ProteinAnalysis
for seq_record in SeqIO.parse("protein_x.txt", "fasta"):
print(seq_record.id), ProteinAnalysis(repr(seq_record.seq)).get_amino_acids_percent().items()
0
を答えはイエスですが、私達にあなたのコードを表示せずに、私たちは多くのフィードバックを与えることはできません。本質的には、FASTAの記録を読む間にアミノ酸の数を維持したいと考えています。確率を求めたい場合は、ループの外側でそれらを合計し、最後にのみ分割します。これは、Pythonの "カウントディクショナリ"やハッシュ/ディクティックの値をインクリメントすることなく、簡単に実行できます。あなたが望むのは、ファイル内の '>'で始まらない行の文字レベルカウントだけであるので、これを行う多くのコマンドラインツールがありそうです。あなたは、それが結果にどのように見えるべきかについての詳細を与えたいと思うかもしれません
grep -v '^>' yourdata.fa | perl -pe 's/(.)/$1\n/g' | sort | uniq -c
関連する問題
- 1. アミノ酸頻度のヒストグラム
- 2. DNAデータをphylip形式のアミノ酸に翻訳する
- 3. アミノ酸結合部位発見、タンパク質データベース
- 4. 整列メタゲノムは、複数のサンプルが、私はアミノ酸配列で働いていますので、
- 5. アミノA140開発(セットトップボックス)
- 6. 酸性試験の作成方法は?
- 7. 酸洗の問題
- 8. は酸洗エラー
- 9. データ操作の操作
- 10. 何の操作アトミック操作
- 11. Eclipseの酸素:キーショートカットが
- 12. Eclipseの酸素 - パッケージエクスプローラ空
- 13. 操作キュー内での操作のトラッキング
- 14. SSRSのデータ操作の操作
- 15. PySparkファイル操作とデータ操作のエラー
- 16. HBaseでの操作による操作
- 17. XSLT - 酸素時間トラッキングプラグイン/モジュール?
- 18. Eclipseの酸素のOracleのJava 8
- 19. Eclipseの酸素 - デバッグの問題 "ステップオーバー"
- 20. チェックボックスの操作
- 21. オブジェクトの「操作」
- 22. ラジオボタンの操作
- 23. テキストファイルの操作
- 24. テキストファイルの操作
- 25. ポップアップキャンバスの操作
- 26. カスタムコンテンツタイプの操作
- 27. モナドスタックの操作
- 28. アレイアドレスの操作
- 29. ブラウザタブの操作
- 30. リストの操作
:小さなことファイルの例
。私の最初のアイデアは、辞書に「protein_location」でデータをグループ化し、関連する頻度でその場所のリストを使用することです。しかし、私はあなたが何を話しているのか、それがどのような生物学的意味を生み出すために実際に提示される必要があるのか分かりません。 –