2017-01-06 6 views
0

Pysparkを使用してハープ・クラスタ上のNLPタスクにNLTKを活用したい。 Anacondaディストリビューションを使用しています。 クラスタがエアギャップ環境にあるため、nltk.download()を実行できません。airgapped環境にnltkデータをインストールする

私は、インターネットにアクセスできるセカンダリマシンでデータをダウンロードする必要があると考えています。どこからダウンロードしますか?そして、それをhadoopクラスタにどのようにインストールすればよいですか?ファイルをコピーするだけですか?あるいは、nltkはデータの場所を知る必要がありますか?すべてのノードでデータをコピーする必要がありますか?

+0

「は、データがすべてのノードにコピーする必要がありますか?」はい、何のためにデータを使用していますか?どのデータセットが必要ですか? – alvas

答えて

1

どこからダウンロードしますか?

あなたは、あなたのマシン上でnltk.download()を実行することができ、データはフォルダnltk_data

そして、どのように私はHadoopクラスタにインストールしないの下で自分のホームディレクトリにダウンロードしますでしょうか?ファイルをコピーするだけですか?あるいは、nltkはデータの場所を知る必要がありますか?

nltk_dataを、プロセスを実行するユーザーの下にあるコンピュータのホームフォルダにコピーするだけで十分です。可能でない場合は、環境変数NLTK_DATAを使用して場所を設定できます。この詳細については、How to config nltk data directory from code?を参照してください。

すべてのノードでデータをコピーする必要がありますか?

はい

関連する問題