2017-05-09 4 views
0

を与えます。文法は、英語以外のテキストで構成されており、UTF-8形式でエンコードする必要があります。 nltk.data.load()はASCII形式のファイルのために正常に動作しますが、UTF-8形式のファイルでは動作しません。にはどうすれば)(nltk.data.loadを使用してUTF-8でエンコードされたファイルからCFGを読んでいますか? ASCIIファイルは正常に動作しますが、UTF-8でエンコードされたファイルは、私はnltk.data.loadを()を使用して、文脈自由文法をロードしようとしていますエラー

答えて

0

あなたはヘルプを確認しましたか?

load(resource_url, format='auto', cache=True, verbose=False, logic_parser=None, fstruct_reader=None, encoding=None)
Load a given resource from the NLTK data package. The following resource formats are currently supported:
...

ので、nltk.data.load()にお電話にencoding="utf-8"を追加します。

>>> help(nltk.data.load) 

が、これはあなたを示しているだろう。 (?他にどのようにあなたはエンコーディングを指定しますので、私は、でも助けをチェックする前にそれを試しているだろう)

+0

私はすでに試してみました: 'manipuri_grammar = nltk.data.load(grammar_file、「CFG」、「UTF-8」 ) '、 エラー: ' ValueError:1行目を解析できません:S - > NP VP'、 '非終端記号があると予想されます:S - > NP VP'、 ファイルをASCII形式で保存すると動作します。ファイルをUTF-8として保存すると、問題が発生します。 –

関連する問題