私はいくつかのファイルをペルシア語で持っています。それらのすべてには多くの文章が含まれており、その後に「タブ」、ペルシャ語、「タブ」、そして英語の単語が含まれています。英語の単語は、それぞれの文のクラスを示します。私はすべてのクラスでペルシャ文の各単語の数を数えなければなりません。たとえば、「دانشگاه」という単語が「情熱」クラスで何回出現したか、「塩辛い」クラスで何回出現するかなどです。 (一部のファイルには2つ以上のクラスがあります)。私が書いたコードは、単語をファイル内で一度だけ数えます。上記のように、どのように単語の数を返すように変更できますか? (ヒント:「タブ」の後のペルシア語と英語の単語ではなく、文中の単語の数が必要です)。ファイルのすべてのクラスの単語を数えます。
from collections import Counter
corpus = []
with open("T.txt", encoding='utf-8') as f:
for line in f:
t = line.strip().split("\t")
corpus.append (t)
for row in corpus:
wordcount = Counter(row[0].split())
print (wordcount)
https://www.dropbox.com/s/r88hglemg7aot0w/F.txt?dl=0
結果は、画像上の通りです。こと、
問題が発生している特定の部分はありますか? –