Google Cloud Platformのdataprocを使ってpysparkジョブを実行したいのですが、デフォルトで2.7の代わりにpython3を実行するようにpysparkを設定する方法がわかりません。googleのdataproc pysparkでpython3を実行するには
私はクラスタにsshをするとき、私は見つけることができました最高のは、しかし、これらのinitialization commands
を追加して、その後
(a)のpython
コマンドはまだpython2で、
(b)は、私の仕事がうまくいきませんでしたPython 2の非互換性です。
python2をアンインストールして、私のinit.shスクリプトで別名alias python='python3'
を試してみましたが、うれしく、成功しませんでした。エイリアスは固執していないようです。
私はこのようなクラスタ
cluster_config = {
"projectId": self.project_id,
"clusterName": cluster_name,
"config": {
"gceClusterConfig": gce_cluster_config,
"masterConfig": master_config,
"workerConfig": worker_config,
"initializationActions": [
[{
"executableFile": executable_file_uri,
"executionTimeout": execution_timeout,
}]
],
}
}
credentials = GoogleCredentials.get_application_default()
api = build('dataproc', 'v1', credentials=credentials)
response = api.projects().regions().clusters().create(
projectId=self.project_id,
region=self.region, body=cluster_config
).execute()
マイexecutable_file_uri
があるが、Googleのストレージに座って作成します。 init.sh
:
apt-get -y update
apt-get install -y python-dev
wget -O /root/get-pip.py https://bootstrap.pypa.io/get-pip.py
python /root/get-pip.py
apt-get install -y python-pip
pip install --upgrade pip
pip install --upgrade six
pip install --upgrade gcloud
pip install --upgrade requests
pip install numpy