:何ですかNLTK - 私はコーパスを作成したいgzip圧縮されたファイルとフォルダを考えるとgzip圧縮されたファイルのコーパス
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/anaconda3/lib/python3.6/site-packages/nltk/collections.py", line 225, in __repr__
for elt in self:
File "/anaconda3/lib/python3.6/site-packages/nltk/corpus/reader/util.py", line 296, in iterate_from
tokens = self.read_block(self._stream)
File "/anaconda3/lib/python3.6/site-packages/nltk/corpus/reader/plaintext.py", line 122, in _read_word_block
words.extend(self._word_tokenizer.tokenize(stream.readline()))
File "/anaconda3/lib/python3.6/site-packages/nltk/data.py", line 1142, in readline
new_chars = self._read(readsize)
File "/anaconda3/lib/python3.6/site-packages/nltk/data.py", line 1374, in _read
chars, bytes_decoded = self._incr_decode(bytes)
File "/anaconda3/lib/python3.6/site-packages/nltk/data.py", line 1405, in _incr_decode
return self.decode(bytes, 'strict')
File "/anaconda3/lib/python3.6/encodings/utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
:
次は
from nltk.corpus import PlaintextCorpusReader
wordlists = PlaintextCorpusReader('.', '.*')
wordlists.words('a.txt.gz')
エラーメッセージがあるの失敗これを行う正しい方法は?
私はNLTK 3.2.2
ファイルを解凍していますか?それは人生を楽にするでしょう。 – alexis
いいえスペースを節約するためにそれらをgzip形式で使用したいと思います。 –