2017-10-21 10 views
0

Kerasのreutersデータセットによって提供されるデータセットを理解できないようです。Kerasのreutersデータセットからニューステキストを再構築

セットがそうのようにロードされます。

(x_train, y_train), (x_test, y_test) = reuters.load_data() 

は、私の知る限り、「X」の配列を理解し、ニュース記事と「y」の配列から単語インデックスの列の配列(リスト)の配列されていますこれらのシーケンスのトピック

しかし、私は実際に言葉に提供辞書と配列の一つの単語インデックスを翻訳しようとすると:

wordDict = {y:x for x,y in reuters.get_word_index().items()} 
for index in x_train[0]: 
    print (wordDict.get(index)) 

シーケンスは意味をなさないように思われます。シーケンスを元のニュースに戻すにはどうしたらいいですか?

編集: 似たスレッドを見つけたhereデータセットの単語インデックスと一致しない辞書のインデックスに問題があるようです。しかし、データを再ダウンロードしても問題は解決しません。

+0

https://github.com/fchollet/deep-learning-with-python-notebooks/blob/master/3.6-classifying-newswires.ipynbのセル6を参照してください。 –

答えて

1

load_data引数 "index_from"のデフォルト値では、実際の単語のインデックスは> 3になります。 wordDict.get(index - 3)を使用してテキストを再構成できます。

関連する問題