私はタプルのリストのリストとして読み込まれた文書を持っています。 各タプルのすべての要素が(word, label)
のペアです。タプルのリストのリストを作成する方法は?
基本的に、ドキュメントは、各文がタプルのリストであるセンテンスのリストです。
私は10未満の出現数を持つ単語を無視して、以前の書式に従った新しい書類を作成しようとしています。
i=0;
j=0;
dictWords=dict()
for sentence in ldata:
for word in sentence:
j=j+1
if word[0] not in dictWords:
dictWords[word[0]]=1
i=i+1
else:
dictWords[word[0]]=1+dictWords[word[0]]
ldata=[[("the","det"),("boy","noun"),("is",'verb'),("ugly","adj")], [("I","Pronoun"), ("am","verb") ("here" ,"Place")]
lnewdata = []
i = 0
for sentence in ldata:
newSent = []
for word in sentence:
if dictWords[word[0]] < 10:
newSent.append(("unk","unk"))
#dictWords is a dictionnary containing each word's occurences
else:
newSent.append(word)
i = i + 1
lnewdata.extend(newSent)
私の問題は、この形式の下になって下lnewdataがあるということです::
[["the" "det" "boy" "noun" "is" "verb" "ugly" "adj"] ["I" "noun" "am" "verb" "here" "Place" ]
あなたがこの問題を解決することをお勧めしますか?つまり、私はこのコードを使用していますについては
未定義の変数のためにインデントが壊れていて、コードが実行可能ではありません。誰かがあなたの質問に答える機会を望むなら、改善してください。 – Guillaume