2016-07-24 9 views
0

私は製品の一覧とそれぞれのレビューのデータフレームを持っていますデータフレーム内のすべてのユニークワードを取得する方法は?

+ --------- + -------------------- ---------------------------- +
|製品|レビュー|
+ --------- + ------------------------------------- ----------- +
| product_a |カジュアルランチにはいいですね。
+ --------- + ------------------------------------- ----------- +
| product_b |エイヴリーは、最も知識のあるバリスタの一つです。
+ --------- + ------------------------------------- ----------- +
| product_c |ツアーガイドは秘密を教えてくれました|
+ --------- + ------------------------------------- ----------- +

データフレーム内のすべてのユニークワードを取得するにはどうすればよいですか?

私は機能作ら:

def count_words(text): 
    try: 
     text = text.lower() 
     words = text.split() 
     count_words = Counter(words) 
    except Exception, AttributeError: 
     count_words = {'':0} 
    return count_words 

をそしてデータフレームに関数を適用するが、それは言葉だけが行ごとにカウント私に与えます。

reviews['words_count'] = reviews['review'].apply(count_words) 
+0

データフレームのサンプルを投稿できますか? –

答えて

2

このを皮切り:

dfx['review'].str.split(' ', expand=True).stack().value_counts() 


United  2 
Kingdom  2 
Mardan,  1 
The   1 
Ireland  1 
Dublin,  1 
Pakistan 1 
dtype: int64 ​ 

list(dfx['review'].str.split(' ', expand=True).stack().unique()) 

    ['United', 'Kingdom', 'The', 'Dublin,', 'Ireland', 'Mardan,', 'Pakistan'] 

"レビュー" 欄の数を取得するには: "レビュー" 列内のすべての単語を取得するには

dfx 
       review 
0  United Kingdom 
1 The United Kingdom 
2  Dublin, Ireland 
3 Mardan, Pakistan 

関連する問題