名前(JMÉNO)のcsv Excelファイルがあります。私は、最も一般的な名前(n)の数を書き込む関数names_chart (year, filename, n)
を書く必要があります。年(ファイルからのデータによる)。私はすでに、最も一般的な名前を書くが、YEARパラメータは書かないコードを書いた。 誰かがこの問題を教えてくれますか? https://gist.github.com/anonymous/cf86c7305859b2fbc79b043a5965ddfePython 3.xで最も一般的な名前
コード:csvファイルの
一部
import re
def process_word(word, words):
if len(word) < 4:
return
w = word.lower()
if w in words:
words[w] += 1
else:
words[w] = 1
def get_words(text):
words = {}
for w in re.findall("\w+", text):
process_word(w, words)
return words
def read_in(filename):
with open(filename, "r", encoding="utf-8") as f:
return f.read()
def print_top(words, count):
sorted_names = sorted(words, key=words.get, reverse=True)
for w in sorted_names[:count]:
print(w, words[w])
def names_chart(year, filename, n):
text = read_in(filename)
words = get_words(text)
print_top(words, n)
names_chart(1987, "du06_jmena.csv", 10)
?メインループは、(年パラメータに基づいて)指定された名前を記録する辞書を決定し、その年がまだ出現していない場合は新しい辞書を生成する必要があります。これは宿題と思われるので、詳細を残しておきます。 –
ここに実際のCSVの**部分**を投稿できますか?たぶん数行ですか? – blacksite
これは[pandas](https://pandas-docs.github.io/pandas-docs-travis/10min.html)でも簡単に行うことができます。これはファイルをデータフレームに読み込み、最も頻繁な値 'df ['item']。value_counts()。idxmax()'を見つけてください。データセットの要点を提供してください。誰かがあなたを助けてくれるでしょう。 – pylang