私は*.txt
ファイルとして保存された(600,900,000,000)行列の形を持っています。行列の各行は、異なるサンプル名sample_name1
,sample_name2
などによって名前が付けられます。ただし、標準化されていないサンプル名があります。 s###30023
Pythonで各行列行の文字を数えるには?カウンタ()?
その後、それぞれ約90億文字の3文字の文字列があります。
sample_name1 ab2ab222baab22ba2bab2b2aab22ab22bababab2baab2b2a
行列は、次の形式である:
600 9123001002
sample_name1 ab2ab222baab22ba2bab2b2aab22ab22bababab2baab2b2a2bababab2baab2b2ab2a...
sample_name2 abbbbbbbbbbbb2bbbbbbbbbbabbbbbbaaabbbbbbbbb222bbbbbabababbbb2b2b2bbb...
...
Iカウント固有の文字の数と各サンプルの辞書(またはリスト、パンダのデータフレーム)を作成したいです。すなわち、辞書形式:
sample_name1 = {'a': 1824600201, 'b': 2736900300, '2': 4561500501}
各行についてです。
Pythonで文字を数える最も簡単な方法は、from collections import Counter
です。テキストファイルをnumpy
にロードし、行列の各行を繰り返し、各行にCounter()
を使用します。
しかし、これらのラベルは標準化されていないため、1行ごとに正しいラベルをどのように削り取るのですか?おそらく、私は各行列の行の最初のX文字を取ることができますか?
はありますあなたはスペースがテキストからラベルを分けることを保証しましたか? – AChampion
@AChampionはい、タブのように見えます。 – ShanZhengYang
@ ShanZhengYang:行内に他のスペース文字はありますか? –