私はファイルを持っており、その中で最も頻繁に使われる10の単語を探したいと思っています。私はストップワードと句読点を省略し、その結果をリストに入れました。各行には、ペルシア語の文、タブ、そして英語の単語が含まれています。問題は、以下のコードは各行の1語を返します。たとえば、行数が12の場合は、12語を返します。インデントに問題があると私は思う。どうすれば修正できますか?ファイル内で最も頻繁に出現する単語を見つける
.
.
.
def train():
RemStopWords (file1, file2) # the function for removing stop words and punctuation at the start of the code
for line in witoutStops:
line = line.strip().split("\t")
words = line[0].split()
uniques = []
q = []
for word in words:
if word not in uniques:
uniques.append(word)
counts = []
for unique in uniques:
count = 0
for word in words:
if word == unique:
count += 1
counts.append((count, unique))
counts.sort()
counts.reverse()
for i in range(min(10, len(counts))):
count, word = counts[i]
print('%s %d' % (word, count))
#q.append(word)
#print (q)
それは動作しますが、私は言葉が必要です。どのように単語をリストに追加できますか?ありがとう –
私は私の答えにsaraを追加しました –