2016-04-07 9 views
-2

ファイルに格納されている300MBの意見データがあります。Pythonの絵文字に関する大規模なテキストデータのグループ化

これらの意見には、751種類の絵文字があります。絵文字に関してこれらの意見をどのようにグループ化できますか?たとえば 「Smiley_emoji」リストには、スマイリー絵文字を含むすべての意見が含まれているはずです。

私は考えていました。

for opinion in opinionsArray: 
    if smiley_emoji in opinion: 
     smiley_emoji_arr.append(opinion) 
    elif sad_emoji in opinion: 
     sad_emoji_arr.append(opinion) 
    elif other_emoji in opinion: 
     other_emoji_arr.append(opinion) 
    .... 

これらの絵文字をすべて印刷し、それぞれの意見があります。

私はPython初心者と見なすことができます。 私は751のif/elseステートメントと751の異なるリストを作成できません。 絵文字に関してこれらのデータをグループ化するより便利な方法はありますか?事前に

おかげ

編集: 絵文字が文字列表現などの一種です。 smiley_emoji、sad_emojiなど。データはtxtファイルに保存され、それぞれの意見は次のように並んでいます。 line1にはemojiで意見1が含まれています.2行目にはemojiなどで意見2が含まれています。 私は効率的でスマートな方法を探しています。ありがとう。このような

+1

いくつかのデータを表示すると参考になります。 – Hun

+0

どのような種類のファイルがデータに保存されていますか?絵文字の文字列は、絵文字や絵の文字列表現ですか? – ivan7707

+0

emojisのリストがあれば、751の 'if'文の代わりにループすることができます。 –

答えて

1

何か:

opinions = ['hello :)', 'world ;)'] 

emoji = { 
    ':)': [], # smile 
    ';)': [] # wink 
} 

for i in opinions: 
    for k, v in emoji.items(): 
     if k in i: 
      v.append(i) 
      break # assuming opinions don't have multiple emoji 

あなたは、しかし、おそらく可能な文字列のファイルからemoji辞書を構築します。

あなたの特定のニーズに合わせて細かく調整された質問をすることはベストプラクティスではありません。あなたの問題を打ち破り、それが一般化する方法について考えてみてください。つまり、プログラミングの質問をしてください。特定のタスクに関する質問ではありません。

関連する問題