私はスキップグラムモデルのために訓練したいと思う私のテキストファイルのデータの巨大なコーパスを持っています。 私はファイルからデータをリスト に分割しました。出現回数のある単語を数えて辞書にし、その単語を辞書のキーとして与え、頻度をvalue.hereにしたいのですが、私のコードのスニペットはword2vecモデルのリストから辞書への変換
ですwith open("enwik8","r") as data:
words=data.read().split()
vocabulary_size = 5000
count = [['UNK', -1]]
count.extend(collections.Counter(words).most_common(vocabulary_size - 1))
count.extend(collections.Counter(words).most_common(vocabulary_size - 1))
私は正常に今私は、辞書にFREQとして単語や値などのキーをそれらを養うために必要がある、最初の最も一般的な50000の言葉件まで単語とその頻度でリストを作ってきました。
dictionary = dict()
for word, _ in count:
誰でも私を助けることができますか?ここで、あなたはすでに単語のリストを持っていると仮定すると
「カウント」とは何ですか? – Goyo
@Goyo srry、私はcode.itの1行が欠けているリストです。 –
'dict(count)'が必要です。 – Goyo