1
私のCentOSマシンにnltk 3.2.1
をインストールしました。
今私はNLTKの任意のコーパス/モデルをダウンロードしようとするたびに、それはエラーの下に私を与える:私はNLTKデータをダウンロードするには、すべて下記の方法を試してみましたElementTree.ParseError NLTKコーパスをダウンロード中
Traceback (most recent call last):
File "/usr/lib64/python2.7/runpy.py", line 162, in _run_module_as_main
"__main__", fname, loader, pkg_name)
File "/usr/lib64/python2.7/runpy.py", line 72, in _run_code
exec code in run_globals
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 2268, in <module>
halt_on_error=options.halt_on_error)
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 664, in download
for msg in self.incr_download(info_or_id, download_dir, force):
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 534, in incr_download
try: info = self._info_or_id(info_or_id)
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 508, in _info_or_id
return self.info(info_or_id)
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 875, in info
self._update_index()
File "/usr/lib/python2.7/site-packages/nltk/downloader.py", line 825, in _update_index
ElementTree.parse(compat.urlopen(self._url)).getroot())
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 1182, in parse
tree.parse(source, parser)
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 656, in parse
parser.feed(data)
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 1642, in feed
self._raiseerror(v)
File "/usr/lib64/python2.7/xml/etree/ElementTree.py", line 1506, in _raiseerror
raise err
xml.etree.ElementTree.ParseError: syntax error: line 1, column 49
注 -
nltk.download()
nltk.download('all')
python -m nltk.downloader all
しかし、すべての方法で同じエラーが発生します。
このエラーが発生する理由とNLTKデータをダウンロードする方法は、誰でも知っていますか?
ご協力いただければ幸いです!
私はプロキシの背後にいません。あなたの提案は正しいです、それは期待されるXML文書を得ることができません。実際にダウンローダでは、サーバインデックスが 'http:// nltk.github.com/nltk_data /'であり、私のマシンでは 'git'コマンドが動作していないことが分かります。 'Issuer certificate is invalid'エラーを投げています。 –
どこを見たか分かりません。ダウンローダインデックスファイルは、 'https:// raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml'から取得されます。ご覧のとおり、これは 'git'ではなく' http(s) 'サービスです。あなたのお気に入りのブラウザでそれを検査してください。さらに良いことに、nltkにフェッチして、問題を特定できるかどうかを確認します。 – alexis