LSTMベースのNNの入力データを準備しようとしています。 私はいくつかのテキスト文書をたくさん持っています、そして、私が望むのは、各文書のためのシーケンスベクトルを作ることです。それで列車データとしてLSTM RNNに送ることができます。Pythonのテキストからシーケンスベクトルを作成する
私の貧弱なアプローチ:
import re
import numpy as np
#raw data
train_docs = ['this is text number one', 'another text that i have']
#put all docs together
train_data = ''
for val in train_docs:
train_data += ' ' + val
tokens = np.unique(re.findall('[a-zа-я0-9]+', train_data.lower()))
voc = {v: k for k, v in dict(enumerate(tokens)).items()}
、その後brutforce "VOC" のdictで、各ドキュメントを交換してください。
このタスクに役立つライブラリがありますか?
参照します。https: //github.com/JonathanRaiman/theano_lstm –