airgapped環境にnltkデータをインストールする

Pysparkを使用してハープ・クラスタ上のNLPタスクにNLTKを活用したい。 Anacondaディストリビューションを使用しています。クラスタがエアギャップ環境にあるため、nltk.download()を実行できません。airgapped環境にnltkデータをインストールする

私は、インターネットにアクセスできるセカンダリマシンでデータをダウンロードする必要があると考えています。どこからダウンロードしますか？そして、それをhadoopクラスタにどのようにインストールすればよいですか？ファイルをコピーするだけですか？あるいは、nltkはデータの場所を知る必要がありますか？すべてのノードでデータをコピーする必要がありますか？

出典

2017-01-06 ADJ

「は、データがすべてのノードにコピーする必要がありますか？」はい、何のためにデータを使用していますか？どのデータセットが必要ですか？ – alvas

どこからダウンロードしますか？

あなたは、あなたのマシン上でnltk.download()を実行することができ、データはフォルダnltk_data

そして、どのように私はHadoopクラスタにインストールしないの下で自分のホームディレクトリにダウンロードしますでしょうか？ファイルをコピーするだけですか？あるいは、nltkはデータの場所を知る必要がありますか？

nltk_dataを、プロセスを実行するユーザーの下にあるコンピュータのホームフォルダにコピーするだけで十分です。可能でない場合は、環境変数NLTK_DATAを使用して場所を設定できます。この詳細については、How to config nltk data directory from code?を参照してください。

すべてのノードでデータをコピーする必要がありますか？

はい

出典

2017-01-06 21:31:07 Timo

airgapped環境にnltkデータをインストールする

答えて

関連する問題