2016-11-07 21 views
1

私のCentOSマシンにnltk 3.2.1をインストールしました。
今私はNLTKの任意のコーパス/モデルをダウンロードしようとするたびに、それはエラーの下に私を与える:私はNLTKデータをダウンロードするには、すべて下記の方法を試してみましたElementTree.ParseError NLTKコーパスをダウンロード中

Traceback (most recent call last): 
File "/usr/lib64/python2.7/runpy.py", line 162, in _run_module_as_main 
"__main__", fname, loader, pkg_name) 
File "/usr/lib64/python2.7/runpy.py", line 72, in _run_code 
exec code in run_globals 
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 2268, in <module> 
halt_on_error=options.halt_on_error) 
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 664, in download 
for msg in self.incr_download(info_or_id, download_dir, force): 
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 534, in incr_download 
try: info = self._info_or_id(info_or_id) 
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 508, in _info_or_id 
return self.info(info_or_id) 
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 875, in info 
self._update_index() 
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 825, in _update_index 
ElementTree.parse(compat.urlopen(self._url)).getroot()) 
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 1182, in parse 
tree.parse(source, parser) 
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 656, in parse 
parser.feed(data) 
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 1642, in feed 
self._raiseerror(v) 
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 1506, in _raiseerror 
raise err 
xml.etree.ElementTree.ParseError: syntax error: line 1, column 49 

注 -

  • nltk.download()
  • nltk.download('all')
  • python -m nltk.downloader all

しかし、すべての方法で同じエラーが発生します。
このエラーが発生する理由とNLTKデータをダウンロードする方法は、誰でも知っていますか?
ご協力いただければ幸いです!

答えて

1

レッツ参照してください。あなたのダウンローダは、利用可能なダウンロードをリストしたXMLドキュメントを開き、それを解析しようとすると、エラーを取得:

ElementTree.parse(compat.urlopen(self._url)).getroot()) 

のどちらか(非常に低い)NLTKサイトは、もはやのPythonと互換性がありますが2.7の場合、または接続に問題があるため、実際に期待されるXMLドキュメントを受け取っていません。あなたはbehind a proxy?ですか?そうでない場合は、接続に問題がある可能性があります。

+0

私はプロキシの背後にいません。あなたの提案は正しいです、それは期待されるXML文書を得ることができません。実際にダウンローダでは、サーバインデックスが 'http:// nltk.github.com/nltk_data /'であり、私のマシンでは 'git'コマンドが動作していないことが分かります。 'Issuer certificate is invalid'エラーを投げています。 –

+1

どこを見たか分かりません。ダウンローダインデックスファイルは、 'https:// raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml'から取得されます。ご覧のとおり、これは 'git'ではなく' http(s) 'サービスです。あなたのお気に入りのブラウザでそれを検査してください。さらに良いことに、nltkにフェッチして、問題を特定できるかどうかを確認します。 – alexis

関連する問題