データ構造をマウントして、発生数を記述し、それらを正しい順序でマッピングしたいと考えています。効率的な方法でPython上の単語発生のリストを実装する
例えば:
WORD_1 => 10の出現箇所
word_2 => 5つの出現箇所
word_3 => 12の出現箇所
word_4 => 2 ocurrences
であり、各単語にはそれを表す1つのIDがあります。
kw2id = ['word_1':0, 'word_2':1, 'word_3':2, 'word_4': 3]
ので、順序付きリストは、次のようになります。
ordered_vocab = [2, 0, 1, 3]
例えば私のコードはこれです...:
#build a vocabulary with the number of ocorrences
vocab = {}
count = 0
for line in open(DATASET_FILE):
for word in line.split():
if word in vocab:
vocab[word] += 1
else:
vocab[word] = 1
count += 1
if not count % 100000:
print(count, "documents processed")
私はこの効率的方法を行うことができますか?
それで、オカレンスはどのように格納されていますか?私はそれが入力の1つだと推測しています。サンプル入力を明確に定義できますか? – Divakar
'collections.Counter'を使用せず、いくつかの規則でキーをソートするのはなぜですか? –