パンダのデータフレームで収集されたコメントのリストを調べ、それらの単語をトークン化してデータフレームの新しい列に入れようとしていますが、これにより、パンダのデータフレームの新しい列に単語をトークン化する
は誤りであることはAttributeErrorを述べている:「ユニコード」オブジェクトが持つ無属性「apwords」
これを行うには、他の方法はありますか?おかげ
def apwords(words):
filtered_sentence = []
words = word_tokenize(words)
for w in words:
filtered_sentence.append(w)
return filtered_sentence
addwords = lambda x: x.apwords()
df['words'] = df['complaint'].apply(addwords)
print df
私はあなたとジョアン・アルメイダが提案何をしてみましたが、私は例外TypeError取得しています:
function
で滞在する方がはるかに簡単で、期待される文字列を、オンラインまたはバッファであるので、あなたが私言ったように文字列から継承して元のメソッドを行うクラスを定義する必要がありますか?ありがとう – user3655574いいえ、あなたの 'df ['complaints']'に文字列以外のものがあることを意味する必要があります。 'df.dtypes'を使うと、' object'という型を 'complaints'の前に置く必要がありますか? 'addwords'型 'df ['complaints'] = df ['complaints']を適用する前に、欠損値(文字列ではない)がある可能性が最も高いと思います。fillna( '')空の文字列で値を返します。 – ysearka