トピックモデルをcsv形式のtwitterデータで実行したいと思います。私はデータをjupyterにロードしました。トピックpythonでのtwitterデータのモデリング
# Import pandas as pd
import pandas as pd
# Load the dataset
tweet_data = pd.read_csv("C://Users/shivam/Desktop/USA_TWEETS .csv", sep='\t', names = ["Date", "ID", "Place", "Text", "Username"])
tweet_data_df = pd.DataFrame(tweet_data)
ここでトピックモデリングを適用します。テキスト変数にどうすれば前進するのですか?あなたのコードの
# let us now, store the text variable of the data-frame in another object
tweets = tweet_data.Text
てください提案が、私はこのような何かをしようとしています
トピックモデリングのこの概念では新しいですが、持っエラー - 例外TypeError:期待される文字列またはバイトのようなオブジェクト
from sklearn.feature_extraction.text import CountVectorizer,
TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
extracted_data = []
for x in range(0, len(data)-1):
for word in word_tokenize(text_data.tolist()[x]):
extracted_data.append(word)
print(extracted_data)
また、トピックモデリングを最初から適用するための他のコードもお役立てください。前もって感謝します。
DATASET: https://drive.google.com/open?id=0B5i9wCO1uYC9aV9fVHg4dHVidjQ
を – DJanssens