Pysparkを使用してハープ・クラスタ上のNLPタスクにNLTKを活用したい。 Anacondaディストリビューションを使用しています。 クラスタがエアギャップ環境にあるため、nltk.download()
を実行できません。airgapped環境にnltkデータをインストールする
私は、インターネットにアクセスできるセカンダリマシンでデータをダウンロードする必要があると考えています。どこからダウンロードしますか?そして、それをhadoopクラスタにどのようにインストールすればよいですか?ファイルをコピーするだけですか?あるいは、nltkはデータの場所を知る必要がありますか?すべてのノードでデータをコピーする必要がありますか?
「は、データがすべてのノードにコピーする必要がありますか?」はい、何のためにデータを使用していますか?どのデータセットが必要ですか? – alvas