私はgcc
をインストールしたLubuntu 16.04マシンを実行しています。私はdoc2vec model
を訓練するときに恐ろしく遅い1人の熟練者しか訓練していないので、gensim
をcython
と一緒に働かせることはできません。cythonとgensimをpysparkで動作させる方法
私が言ったように、gcc
は最初からインストールされていました。私は間違いを犯してgensim
をcython
の前にインストールしました。私はpip
経由でgensim
の再インストールを強制して修正しました。まだ効果がないのはただ1人の労働者だけです。
マシンはspark
マスターとして設定され、Iインターフェイスはspark
からpyspark
に設定されます。このように動作し、pyspark
はjupyter
を使用し、jupyter
はpython 3.5を使用します。このようにして、私はクラスタにjupyter
インターフェースを取得します。今私はこれがなぜgensim
をcython
と働かせないのかわからない。私はクラスタ上でgensimコードを実行しないで、gensim
にもjupyter
を起動するほうがずっと便利です。
私がgensimのページからわかる限り、それはCythonとは関係ありません。正確に何をやっているのですか、そしてCythonとgensimが一緒に行くと思いますか? – DavidW
gensimにはCythonで書かれたいくつかのオプションのより高速なバージョンがありますが、Cythonをインストールする必要はありません(生成されたCファイルはGCCだけが必要となるように用意されています)。また、Cモジュールをビルドできない場合はインストール時の警告を表示し、Cモジュールがない場合はインポート時の警告を表示します。あなたはこれらの警告を受け取りますか? – DavidW
私はword2vecのチュートリアルを読んでいます:_あなたがCythonをインストールしている場合、ワーカーのパラメータは効果があります。 Cythonがなければ、あなたはGILのために1つのコアしか使用できません(そして、word2vecのトレーニングは非常に遅くなります)。_ [here](https://rare-technologies.com/word2vec-tutorial/)私がpipを使って行ったときには、少なくともビルドエラーは発生しません。 – Thagor